Metody sumarizace českých textů podporující fakticitu

Marian Krotil

Fact-Guided Text Summarization for Czech

Typ dokumentu

diplomová práce
master thesis

Autor

Marian Krotil

Vedoucí práce

Drchal Jan

Oponent práce

Šír Gustav

Studijní obor

Umělá inteligence

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra počítačů

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Pokrok ve zpracování přirozeného jazyka byl v posledních letech dosažen díky předtrénování velkých jazykových modelů na rozsáhlých vícejazyčných korpusech, což jim umožnilo zpracovávat texty v méně pokrytých jazycích, jako je například čeština, na kterou se tato práce zaměřuje. Úloha sumarizace je tím usnadněna a vytvářené sumarizace se podobají lidmi psanému textu. I přes tyto pokroky se však state-of-the-art modely často potýkají s problémy, jako je halucinace, kontradikce a šíření nepravdivých informací. Problém navíc zhoršuje nedostatek českých faktických metrik postihujících tyto nesrovnalosti. Tato práce řeší tyto výzvy dvěma klíčovými příspěvky: 1) návrh víceúlohové vícejazyčné faktické metriky AlignScoreCS, která je schopna vyhodnocovat různé úlohy, včetně sumarizací, v českém i anglickém jazyce, a 2) představení techniky faktického zlepšení BARF: BRIO paradigma s AlignScoreCS a ROGUE$_{RAW}$ Fúzemi, navržené pro sumarizační modely k produkci faktických souhrnů v češtině a angličtině. Vyhodnocení faktické metriky ukázalo srovnatelné výsledky s jejím anglickým protějškem, čímž překonala ostatní existující metriky a prosadila se jako dosud nejslibnější česká faktická metrika. Modely BARF aktualizovaly některé state-of-the-art výsledky pro dataset SumeCzech a zároveň zaručily faktičnost v sumarizacích. Provedené lidské hodnocení potvrdilo zlepšení fakticity generovaných sumarizací a korelaci faktické metriky s lidským úsudkem.

Advancements in natural language processing have been driven by the pre-training of large language models on vast multilingual corpora in recent years, enabling them to process texts in less covered languages, such as Czech, which is the main focus of this work. The summarization task is thus facilitated and produced summaries resemble human writing. However, despite these advancements, state-of-the-art models often struggle with issues such as hallucination, contradiction, and the propagation of false information. Moreover, a lack of Czech factual metrics capturing these disparities exacerbates the problem. This work addresses these challenges through two key contributions: 1) the design of a multitask multilingual factual metric, AlignScoreCS, capable of assessing various tasks, including summarization, in both Czech and English languages, and 2) the introduction of a factual refinement technique, BARF: BRIO paradigm with AlignScoreCS and ROGUE$_{RAW}$ Fusion, designed for summarization models to produce factual summaries in Czech and English. The evaluation of the factual metric demonstrated comparable scores to its English counterpart, outperforming other existing metrics and establishing itself as the most promising Czech factual metric to date. BARF models updated specific state-of-the-art results for the SumeCzech dataset while ensuring factual summaries. Conducted human evaluation confirmed the enhancement in the factuality of generated summaries and the correlation of the factual metric with human judgment.