ČVUT DSpace
  • Prohledat DSpace
  • English
  • Přihlásit se
  • English
  • English
Zobrazit záznam 
  •   ČVUT DSpace
  • České vysoké učení technické v Praze
  • Fakulta elektrotechnická
  • katedra počítačů
  • Bakalářské práce - 13136
  • Zobrazit záznam
  • České vysoké učení technické v Praze
  • Fakulta elektrotechnická
  • katedra počítačů
  • Bakalářské práce - 13136
  • Zobrazit záznam
JavaScript is disabled for your browser. Some features of this site may not work without it.

Ověřování fakticity výstupů metod abstraktivní sumarizace textů

Assessing Facticity in Abstractive Summarization Methods

Typ dokumentu
bakalářská práce
bachelor thesis
Autor
Šimon Zvára
Vedoucí práce
Drchal Jan
Oponent práce
Průša Daniel
Studijní program
Softwarové inženýrství a technologie
Instituce přidělující hodnost
katedra počítačů



Práva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznam
Abstrakt
Naše práce prozkoumává existující metody pro evaluaci generativních modelů používaných v úlohách sumarizace textů a navrhuje dvě metody pro evaluaci textů v Českém jazyce. Nejprve předkládá ROUGE-CS, upravenou verzi metriky ROUGE, rozšířenou o využití slovníků českých synonym, antonym, lemmat, výplňových slov a o porovnávání n-gramů na základě podobnosti vektorových reprezentací slov. Poté práce navrhuje Memes-CS (Metric for Evaluating Model Effectiveness in Summarization), metriku založenou na naučeném transformer modelu RoBERTa, a na závěr práce navrhuje metodu pro automatické generování datasetu vhodného k porovnávání kvalit sumarizací za pomoci transformací prováděných nad již existujícím českým sumarizačním datasetem SumeCzech. Účinnost obou metrik je porovnávána s původní verzí metriky ROUGE na ručně anotované množině párů sumarizací za pomoci výpočtu korelace s hodnoceními, která udělil člověk.
 
Our work examines existing methods for the evaluation of generative models used in text summarization tasks and proposes two methods for evaluating texts written in the Czech language. It first introduces ROUGE-CS a modified version of the ROUGE metric, augmented by the use of dictionaries of Czech synonyms, antonyms, lemmas, and filler words, and by comparing n-grams based on the similarity of word embeddings. Secondly, we introduce Memes-CS (Metric for Evaluating Model Effectiveness in Summarization), a metric based on a pre-trained transformer model RoBERTa, and thirdly we introduce a method for automatic generation of a dataset suitable for comparing the quality of summarization using various types of transformations performed over the existing Czech summarization dataset SumeCzech. The performance of both metrics is compared with the original version of the ROUGE metric on a manually annotated set of summarizations by computing the correlation with human judgment.
 
URI
http://hdl.handle.net/10467/100901
Zobrazit/otevřít
PLNY_TEXT (1.757Mb)
PRILOHA (166.8Kb)
POSUDEK (661.9Kb)
POSUDEK (204.3Kb)
Kolekce
  • Bakalářské práce - 13136 [971]

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Kontaktujte nás | Vyjádření názoru
Theme by 
@mire NV
 

 

Užitečné odkazy

ČVUT v PrazeÚstřední knihovna ČVUTO digitální knihovně ČVUTInformační zdrojePodpora studiaPodpora publikování

Procházet

Vše v DSpaceKomunity a kolekceDle data publikováníAutořiNázvyKlíčová slovaTato kolekceDle data publikováníAutořiNázvyKlíčová slova

Můj účet

Přihlásit se

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Kontaktujte nás | Vyjádření názoru
Theme by 
@mire NV