Automatizované ověřování faktů daty z české Wikipedie
Automated Fact Checking Based on Czech Wikipedia
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Tomáš Mlynář
Vedoucí práce
Ullrich Herbert
Oponent práce
Šír Gustav
Studijní obor
Základy umělé inteligence a počítačových vědStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra kybernetikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Automatické ověřování faktů v češtině pomáhá novinářům ověřovat tvrzení v boji proti šíření dezinformací. Tato práce navazuje na předchozí výzkum provedený v AIC, představuje aktualizovanou lokalizaci datasetu FEVER a zavádí a vyhodnocuje NLI filtrování pro redukci šumu v lokalizovaných datasetech. Kromě toho jsem vyhodnotil metody vyhledávání dokumentů a natrénoval nové inferenční modely přirozeného jazyka s filtrovanými datasety. NLI modely a vyhledávání dokumentů jsem začlenil do počáteční verze pipeline pro ověřování faktů a vytvořil ukázkovou aplikaci. Nová datová sada byla lokalizována, přičemž byly částečně znovu použity předchozí práce s novými překlady a zpracováním. Porovnal jsem filtrování na základě fixní prahové hodnoty 0.7 a prahových hodnot maximalizujících F1 skóre a precision na anotovaných datech. Pokud jde o metody vyhledávání dokumentů, hodnotil jsem sparse a hybridní metodu, z nichž vyplynula baseline v podobě hybridní metody Anserini+CrossEncoder. Modely NLI byly finetunovány na základě XLM-RoBERTa-large. Přestože NLI filtrování zlepšuje transduction precision datasetů, výkonnost finetunovaných modelů se výrazně nezvyšuje a v některých případech dokonce klesá. Tento pokles výkonu může být způsoben tím, že filtrovací model eliminuje náročné datové body. Vyhodnocení pipeline ukázalo výsledky srovnatelné s předchozími pracemi. Předváděcí aplikace byla vyvinuta pomocí frameworku Streamlit a rozšířena o kalibraci pomocí temperature scaling, vysvětlitelnost pomocí SHAP a nové výstupní režimy pro lepší použitelnost. Automated Czech fact-checking assists journalists in verifying claims when combating the spread of misinformation. This thesis builds upon previous research conducted at AIC, presents an updated localisation of the FEVER dataset and introduces and evaluates the NLI filtering approach for reducing noise in localised datasets. Moreover, I evaluated document retrieval methods and trained new natural language inference models on the filtered datasets. I integrated the NLI and document retrieval models into an initial version of the fact-checking pipeline and created a showcase application. The new dataset was localised, partially reusing previous works with new translations and processing. I compared instances of the NLI filtering using a fixed 0.7 threshold and thresholds maximising its F1 score and precision on annotated data. As for the document retrieval methods, I evaluated sparse and hybrid methods, producing a more robust hybrid Anserini+CrossEncoder model baseline. The NLI models were finetuned based on XLM-RoBERTa-large. Although the NLI filtering does decrease the percentage of noise in the annotated sample, the performance of the fine-tuned models does not significantly increase and, in some cases, even decreases. This drop in performance could be caused by the filtering model eliminating the challenging data points. The pipeline evaluation showed results comparable to previous works. The showcase application was developed using the Streamlit framework and enhanced with temperature scaling calibration, SHAP explainability, and new output modes for improved usability.
Kolekce
- Bakalářské práce - 13133 [778]