Zobrazit minimální záznam

Automated Fact Checking Based on Czech Wikipedia



dc.contributor.advisorUllrich Herbert
dc.contributor.authorTomáš Mlynář
dc.date.accessioned2023-06-13T22:52:10Z
dc.date.available2023-06-13T22:52:10Z
dc.date.issued2023-06-13
dc.identifierKOS-1176615871105
dc.identifier.urihttp://hdl.handle.net/10467/109219
dc.description.abstractAutomatické ověřování faktů v češtině pomáhá novinářům ověřovat tvrzení v boji proti šíření dezinformací. Tato práce navazuje na předchozí výzkum provedený v AIC, představuje aktualizovanou lokalizaci datasetu FEVER a zavádí a vyhodnocuje NLI filtrování pro redukci šumu v lokalizovaných datasetech. Kromě toho jsem vyhodnotil metody vyhledávání dokumentů a natrénoval nové inferenční modely přirozeného jazyka s filtrovanými datasety. NLI modely a vyhledávání dokumentů jsem začlenil do počáteční verze pipeline pro ověřování faktů a vytvořil ukázkovou aplikaci. Nová datová sada byla lokalizována, přičemž byly částečně znovu použity předchozí práce s novými překlady a zpracováním. Porovnal jsem filtrování na základě fixní prahové hodnoty 0.7 a prahových hodnot maximalizujících F1 skóre a precision na anotovaných datech. Pokud jde o metody vyhledávání dokumentů, hodnotil jsem sparse a hybridní metodu, z nichž vyplynula baseline v podobě hybridní metody Anserini+CrossEncoder. Modely NLI byly finetunovány na základě XLM-RoBERTa-large. Přestože NLI filtrování zlepšuje transduction precision datasetů, výkonnost finetunovaných modelů se výrazně nezvyšuje a v některých případech dokonce klesá. Tento pokles výkonu může být způsoben tím, že filtrovací model eliminuje náročné datové body. Vyhodnocení pipeline ukázalo výsledky srovnatelné s předchozími pracemi. Předváděcí aplikace byla vyvinuta pomocí frameworku Streamlit a rozšířena o kalibraci pomocí temperature scaling, vysvětlitelnost pomocí SHAP a nové výstupní režimy pro lepší použitelnost.cze
dc.description.abstractAutomated Czech fact-checking assists journalists in verifying claims when combating the spread of misinformation. This thesis builds upon previous research conducted at AIC, presents an updated localisation of the FEVER dataset and introduces and evaluates the NLI filtering approach for reducing noise in localised datasets. Moreover, I evaluated document retrieval methods and trained new natural language inference models on the filtered datasets. I integrated the NLI and document retrieval models into an initial version of the fact-checking pipeline and created a showcase application. The new dataset was localised, partially reusing previous works with new translations and processing. I compared instances of the NLI filtering using a fixed 0.7 threshold and thresholds maximising its F1 score and precision on annotated data. As for the document retrieval methods, I evaluated sparse and hybrid methods, producing a more robust hybrid Anserini+CrossEncoder model baseline. The NLI models were finetuned based on XLM-RoBERTa-large. Although the NLI filtering does decrease the percentage of noise in the annotated sample, the performance of the fine-tuned models does not significantly increase and, in some cases, even decreases. This drop in performance could be caused by the filtering model eliminating the challenging data points. The pipeline evaluation showed results comparable to previous works. The showcase application was developed using the Streamlit framework and enhanced with temperature scaling calibration, SHAP explainability, and new output modes for improved usability.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectAplikace na ověřování faktůcze
dc.subjectČeská Wikipediecze
dc.subjectInference v přirozeném jazycecze
dc.subjectOvěřování faktůcze
dc.subjectPipeline na ověřování faktůcze
dc.subjectVyhledávání dokumentůcze
dc.subjectCzech Wikipediaeng
dc.subjectDocument Retrievaleng
dc.subjectFact-checkingeng
dc.subjectFact-checking applicationeng
dc.subjectFact-checking pipelineeng
dc.subjectNatural Language Inferenceeng
dc.titleAutomatizované ověřování faktů daty z české Wikipediecze
dc.titleAutomated Fact Checking Based on Czech Wikipediaeng
dc.typebakalářská prácecze
dc.typebachelor thesiseng
dc.contributor.refereeŠír Gustav
theses.degree.disciplineZáklady umělé inteligence a počítačových vědcze
theses.degree.grantorkatedra kybernetikycze
theses.degree.programmeOtevřená informatikacze


Soubory tohoto záznamu





Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam