Ověřování fakticity výstupů metod abstraktivní sumarizace textů
Assessing Facticity in Abstractive Summarization Methods
dc.contributor.advisor | Drchal Jan | |
dc.contributor.author | Šimon Zvára | |
dc.date.accessioned | 2022-06-01T11:51:49Z | |
dc.date.available | 2022-06-01T11:51:49Z | |
dc.date.issued | 2022-05-31 | |
dc.identifier | KOS-1062775453505 | |
dc.identifier.uri | http://hdl.handle.net/10467/100901 | |
dc.description.abstract | Naše práce prozkoumává existující metody pro evaluaci generativních modelů používaných v úlohách sumarizace textů a navrhuje dvě metody pro evaluaci textů v Českém jazyce. Nejprve předkládá ROUGE-CS, upravenou verzi metriky ROUGE, rozšířenou o využití slovníků českých synonym, antonym, lemmat, výplňových slov a o porovnávání n-gramů na základě podobnosti vektorových reprezentací slov. Poté práce navrhuje Memes-CS (Metric for Evaluating Model Effectiveness in Summarization), metriku založenou na naučeném transformer modelu RoBERTa, a na závěr práce navrhuje metodu pro automatické generování datasetu vhodného k porovnávání kvalit sumarizací za pomoci transformací prováděných nad již existujícím českým sumarizačním datasetem SumeCzech. Účinnost obou metrik je porovnávána s původní verzí metriky ROUGE na ručně anotované množině párů sumarizací za pomoci výpočtu korelace s hodnoceními, která udělil člověk. | cze |
dc.description.abstract | Our work examines existing methods for the evaluation of generative models used in text summarization tasks and proposes two methods for evaluating texts written in the Czech language. It first introduces ROUGE-CS a modified version of the ROUGE metric, augmented by the use of dictionaries of Czech synonyms, antonyms, lemmas, and filler words, and by comparing n-grams based on the similarity of word embeddings. Secondly, we introduce Memes-CS (Metric for Evaluating Model Effectiveness in Summarization), a metric based on a pre-trained transformer model RoBERTa, and thirdly we introduce a method for automatic generation of a dataset suitable for comparing the quality of summarization using various types of transformations performed over the existing Czech summarization dataset SumeCzech. The performance of both metrics is compared with the original version of the ROUGE metric on a manually annotated set of summarizations by computing the correlation with human judgment. | eng |
dc.publisher | České vysoké učení technické v Praze. Vypočetní a informační centrum. | cze |
dc.publisher | Czech Technical University in Prague. Computing and Information Centre. | eng |
dc.rights | A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html | eng |
dc.rights | Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html | cze |
dc.subject | sumarizace textu | cze |
dc.subject | evaluace modelů | cze |
dc.subject | metrika ROUGE | cze |
dc.subject | transformer | cze |
dc.subject | model-based metrika | cze |
dc.subject | bakalářská práce | cze |
dc.subject | text summarization | eng |
dc.subject | model evaluation | eng |
dc.subject | ROUGE metrics | eng |
dc.subject | transformer | eng |
dc.subject | model-based metric | eng |
dc.subject | bachelor's thesis | eng |
dc.title | Ověřování fakticity výstupů metod abstraktivní sumarizace textů | cze |
dc.title | Assessing Facticity in Abstractive Summarization Methods | eng |
dc.type | bakalářská práce | cze |
dc.type | bachelor thesis | eng |
dc.contributor.referee | Průša Daniel | |
theses.degree.grantor | katedra počítačů | cze |
theses.degree.programme | Softwarové inženýrství a technologie | cze |
Soubory tohoto záznamu
Tento záznam se objevuje v následujících kolekcích
-
Bakalářské práce - 13136 [1056]