Zobrazit minimální záznam

Fact-Guided Text Summarization for Czech



dc.contributor.advisorDrchal Jan
dc.contributor.authorMarian Krotil
dc.date.accessioned2024-06-18T10:37:22Z
dc.date.available2024-06-18T10:37:22Z
dc.date.issued2024-06-12
dc.identifierKOS-1243608759205
dc.identifier.urihttp://hdl.handle.net/10467/114893
dc.description.abstractPokrok ve zpracování přirozeného jazyka byl v posledních letech dosažen díky předtrénování velkých jazykových modelů na rozsáhlých vícejazyčných korpusech, což jim umožnilo zpracovávat texty v méně pokrytých jazycích, jako je například čeština, na kterou se tato práce zaměřuje. Úloha sumarizace je tím usnadněna a vytvářené sumarizace se podobají lidmi psanému textu. I přes tyto pokroky se však state-of-the-art modely často potýkají s problémy, jako je halucinace, kontradikce a šíření nepravdivých informací. Problém navíc zhoršuje nedostatek českých faktických metrik postihujících tyto nesrovnalosti. Tato práce řeší tyto výzvy dvěma klíčovými příspěvky: 1) návrh víceúlohové vícejazyčné faktické metriky AlignScoreCS, která je schopna vyhodnocovat různé úlohy, včetně sumarizací, v českém i anglickém jazyce, a 2) představení techniky faktického zlepšení BARF: BRIO paradigma s AlignScoreCS a ROGUE$_{RAW}$ Fúzemi, navržené pro sumarizační modely k produkci faktických souhrnů v češtině a angličtině. Vyhodnocení faktické metriky ukázalo srovnatelné výsledky s jejím anglickým protějškem, čímž překonala ostatní existující metriky a prosadila se jako dosud nejslibnější česká faktická metrika. Modely BARF aktualizovaly některé state-of-the-art výsledky pro dataset SumeCzech a zároveň zaručily faktičnost v sumarizacích. Provedené lidské hodnocení potvrdilo zlepšení fakticity generovaných sumarizací a korelaci faktické metriky s lidským úsudkem.cze
dc.description.abstractAdvancements in natural language processing have been driven by the pre-training of large language models on vast multilingual corpora in recent years, enabling them to process texts in less covered languages, such as Czech, which is the main focus of this work. The summarization task is thus facilitated and produced summaries resemble human writing. However, despite these advancements, state-of-the-art models often struggle with issues such as hallucination, contradiction, and the propagation of false information. Moreover, a lack of Czech factual metrics capturing these disparities exacerbates the problem. This work addresses these challenges through two key contributions: 1) the design of a multitask multilingual factual metric, AlignScoreCS, capable of assessing various tasks, including summarization, in both Czech and English languages, and 2) the introduction of a factual refinement technique, BARF: BRIO paradigm with AlignScoreCS and ROGUE$_{RAW}$ Fusion, designed for summarization models to produce factual summaries in Czech and English. The evaluation of the factual metric demonstrated comparable scores to its English counterpart, outperforming other existing metrics and establishing itself as the most promising Czech factual metric to date. BARF models updated specific state-of-the-art results for the SumeCzech dataset while ensuring factual summaries. Conducted human evaluation confirmed the enhancement in the factuality of generated summaries and the correlation of the factual metric with human judgment.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectFaktická Metrikacze
dc.subjectAbstraktivní Sumarizacecze
dc.subjectFakticita Sumarizacecze
dc.subjectEvaluace Sumarizacícze
dc.subjectEvaluační Metrikacze
dc.subjectČeštinacze
dc.subjectAngličtinacze
dc.subjectAlignScoreCScze
dc.subjectBARFcze
dc.subjectNLIcze
dc.subjectNLPcze
dc.subjectBRIOcze
dc.subjectSumeCzechcze
dc.subjectCNCcze
dc.subjectXSUMcze
dc.subjectCNNDMcze
dc.subjectSummaCcze
dc.subjectTRUEcze
dc.subjectmBARTcze
dc.subjectLLMcze
dc.subjectFactuality Metriceng
dc.subjectAbstractive Summarizationeng
dc.subjectSummarization Facticityeng
dc.subjectSummarization Evaluationeng
dc.subjectEvaluation Metriceng
dc.subjectCzecheng
dc.subjectEnglisheng
dc.subjectAlignScoreCSeng
dc.subjectBARFeng
dc.subjectNLIeng
dc.subjectNLPeng
dc.subjectBRIOeng
dc.subjectSumeCzecheng
dc.subjectCNCeng
dc.subjectXSUMeng
dc.subjectCNNDMeng
dc.subjectSummaCeng
dc.subjectTRUEeng
dc.subjectmBARTeng
dc.subjectLLMeng
dc.titleMetody sumarizace českých textů podporující fakticitucze
dc.titleFact-Guided Text Summarization for Czecheng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.contributor.refereeŠír Gustav
theses.degree.disciplineUmělá inteligencecze
theses.degree.grantorkatedra počítačůcze
theses.degree.programmeOtevřená informatikacze


Soubory tohoto záznamu





Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam