Show simple item record

Assessing Facticity in Abstractive Summarization Methods



dc.contributor.advisorDrchal Jan
dc.contributor.authorŠimon Zvára
dc.date.accessioned2022-06-01T11:51:49Z
dc.date.available2022-06-01T11:51:49Z
dc.date.issued2022-05-31
dc.identifierKOS-1062775453505
dc.identifier.urihttp://hdl.handle.net/10467/100901
dc.description.abstractNaše práce prozkoumává existující metody pro evaluaci generativních modelů používaných v úlohách sumarizace textů a navrhuje dvě metody pro evaluaci textů v Českém jazyce. Nejprve předkládá ROUGE-CS, upravenou verzi metriky ROUGE, rozšířenou o využití slovníků českých synonym, antonym, lemmat, výplňových slov a o porovnávání n-gramů na základě podobnosti vektorových reprezentací slov. Poté práce navrhuje Memes-CS (Metric for Evaluating Model Effectiveness in Summarization), metriku založenou na naučeném transformer modelu RoBERTa, a na závěr práce navrhuje metodu pro automatické generování datasetu vhodného k porovnávání kvalit sumarizací za pomoci transformací prováděných nad již existujícím českým sumarizačním datasetem SumeCzech. Účinnost obou metrik je porovnávána s původní verzí metriky ROUGE na ručně anotované množině párů sumarizací za pomoci výpočtu korelace s hodnoceními, která udělil člověk.cze
dc.description.abstractOur work examines existing methods for the evaluation of generative models used in text summarization tasks and proposes two methods for evaluating texts written in the Czech language. It first introduces ROUGE-CS a modified version of the ROUGE metric, augmented by the use of dictionaries of Czech synonyms, antonyms, lemmas, and filler words, and by comparing n-grams based on the similarity of word embeddings. Secondly, we introduce Memes-CS (Metric for Evaluating Model Effectiveness in Summarization), a metric based on a pre-trained transformer model RoBERTa, and thirdly we introduce a method for automatic generation of a dataset suitable for comparing the quality of summarization using various types of transformations performed over the existing Czech summarization dataset SumeCzech. The performance of both metrics is compared with the original version of the ROUGE metric on a manually annotated set of summarizations by computing the correlation with human judgment.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectsumarizace textucze
dc.subjectevaluace modelůcze
dc.subjectmetrika ROUGEcze
dc.subjecttransformercze
dc.subjectmodel-based metrikacze
dc.subjectbakalářská prácecze
dc.subjecttext summarizationeng
dc.subjectmodel evaluationeng
dc.subjectROUGE metricseng
dc.subjecttransformereng
dc.subjectmodel-based metriceng
dc.subjectbachelor's thesiseng
dc.titleOvěřování fakticity výstupů metod abstraktivní sumarizace textůcze
dc.titleAssessing Facticity in Abstractive Summarization Methodseng
dc.typebakalářská prácecze
dc.typebachelor thesiseng
dc.contributor.refereePrůša Daniel
theses.degree.grantorkatedra počítačůcze
theses.degree.programmeSoftwarové inženýrství a technologiecze


Files in this item





This item appears in the following Collection(s)

Show simple item record