NLI Models for Assessing Facticity in Summarization Methods
Použití NLI modelů pro ověřování fakticity sumarizací
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date
Files
Abstract
V posledních letech neuronové sítě, konkrétně Transformers architektura, dominují pole Natural Language Processing. Tento způsob modelování jazyka vykazuje state-of-art výsledky a posouvá celý obor k rychlejšímu vývoji. Vyjímkou není ani abstraktivní sumarizace textu. Transformers architektura a modely založené na ni ovšem také přináší určitá úskalí a výzvy. Obor v současné chvíli nejvíce postupuje pro nejvíce užívané jazyky jako je angličtina, španělština a čínština. Zjeména kvůli dostupnosti datasetů skoro výhradně pro tyto jazyky. Tato práce ukazuje přehled state-of-art přístupů v oblasti NLP se soustředěním na sumarizaci textu. Dále jsou diskutovány výzvy a překážky v prostředí sumarizace pro český jazyk. V praktické části je vytvořen vlastní anotovaný dataset a také vytvořen program pro automatickou evaluaci NLI modelů na generovaných sumarizacích. Výsledkém práce je kompatní shrnutí state-of-art v oblasti automatické sumarizace textu. Dále, jsou prezentovány výsledky evaluace použití NLI modelů se zjištěním, že v případě použití vhodných a datasetů NLI modely ukazují velký potenciál stát se vhodnou metrikou pro ověřování generovaných sumarizací.
In recent years, neural networks, namely the Transformers architecture, have been dominating the field of Natural Language Processing. This approach is showing state-of-the-art results, and the field is progressively developing. One of these fields is the abstractive text summarization. However, feeding the models based on Transformers calls for the need for large datasets. Moreover, the field is mainly advancing in the most-used languages like English, Spanish or Chinese. This master thesis presents an overview of state-of-the-art NLP approaches, with a focus on text summarization. We discuss the challenges and motivation for the task in the environment of the Czech language. In the practical part, we have created a custom annotated dataset and developed an NLI-fact-checking pipeline to test and evaluate the performance of selected NLI models to assess the facticity of generated summaries. As the result of this thesis, we have presented a compact summary of the state-of-art in text summarization. In addition, the results of the NLI-fact-pipeline discover that with a suitable dataset that the NLI models have great potential of being an automatic model-based evaluation medium.
In recent years, neural networks, namely the Transformers architecture, have been dominating the field of Natural Language Processing. This approach is showing state-of-the-art results, and the field is progressively developing. One of these fields is the abstractive text summarization. However, feeding the models based on Transformers calls for the need for large datasets. Moreover, the field is mainly advancing in the most-used languages like English, Spanish or Chinese. This master thesis presents an overview of state-of-the-art NLP approaches, with a focus on text summarization. We discuss the challenges and motivation for the task in the environment of the Czech language. In the practical part, we have created a custom annotated dataset and developed an NLI-fact-checking pipeline to test and evaluate the performance of selected NLI models to assess the facticity of generated summaries. As the result of this thesis, we have presented a compact summary of the state-of-art in text summarization. In addition, the results of the NLI-fact-pipeline discover that with a suitable dataset that the NLI models have great potential of being an automatic model-based evaluation medium.