Demagog.cz Dataset for Automated Fact-Checking
Demagog.cz: datová sada pro automatizované ověřování faktů
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
2025-06-12
Abstract
S rostoucím šířením dezinformací nabývá na významu automatizované ověřování faktů;
zejména v případech, kdy je ruční ověřování časově náročné a obtížně škálovatelné.
Přestože organizace jako Demagog poskytují kvalitní hodnocení skutečných výroků
v českém jazyce, dosud chybí veřejně dostupný dataset, který by tato hodnocení struk
turovaně spojoval s odkazovanými zdroji ve strojově zpracovatelné podobě. Navržený
přístup tuto mezeru vyplňuje vytvořením nového datasetu na základě výstupů Dema
gogu. Výsledný dataset obsahuje 1894 faktických výroků, z nichž každý je opatřen
hodnoticím štítkem, vysvětlením v přirozeném jazyce a textově zpracovaným obsahem
všech citovaných zdrojů. Pro účely sběru, očištění a konverze odkazovaného materiálu
byl navržen a implementován vlastní postup, který zahrnuje i záložní přístup k archivo
vaným webovým stránkám. Tento dataset následně sloužil pro experiment, v němž velký
jazykový model generoval výrokové hodnocení a odůvodnění na základě přiloženého
tvrzení a jeho relevantních informačních zdrojů. Výsledky byly hodnoceny pomocí
vícetřídní klasifikace a sémantické podobnosti vůči referenčnímu vysvětlení. Výsledky
ukazují nejen potenciál jazykových modelů pro ověřování faktů v češtině, ale také
limity celého předloženého postupu a poukazují na možnosti dalšího zlepšení v oblasti
f
iltrování relevantních důkazů, časové konzistence nebo hodnocení kvality generovaných
vysvětlení.
As misinformation proliferates, automated fact-checking becomes increasingly essential especially in contexts where manual verification is time-consuming and difficult to scale. While fact-checking institutions like Demagog provide high-quality assessments of real-world Czech claims, there exists no publicly available dataset that consolidates these claims with structured, machine-usable evidence and rationale. This work addresses that gap by constructing a novel dataset derived from Demagogs assessments. It includes 1,894 factual claims, each annotated with a veracity label, a human-written explanation, and parsed plain-text versions of all referenced source documents. A custom pipeline was built to retrieve, sanitize, and convert the cited evidence, with archival fallbacks to ensure robustness. The dataset is then used in a baseline experiment, where a large language model is prompted with both the claim and its evidence to jointly generate a verdict and explanation. Performance is measured through multi-class classification accuracy and semantic similarity to the gold explanation. Results highlight both the potential of LLMs for Czech-language fact verification and the limitations of the surrounding pipeline, identifying opportunities for future improvements in evidence quality filtering, temporal consistency, and rationale evaluation.
As misinformation proliferates, automated fact-checking becomes increasingly essential especially in contexts where manual verification is time-consuming and difficult to scale. While fact-checking institutions like Demagog provide high-quality assessments of real-world Czech claims, there exists no publicly available dataset that consolidates these claims with structured, machine-usable evidence and rationale. This work addresses that gap by constructing a novel dataset derived from Demagogs assessments. It includes 1,894 factual claims, each annotated with a veracity label, a human-written explanation, and parsed plain-text versions of all referenced source documents. A custom pipeline was built to retrieve, sanitize, and convert the cited evidence, with archival fallbacks to ensure robustness. The dataset is then used in a baseline experiment, where a large language model is prompted with both the claim and its evidence to jointly generate a verdict and explanation. Performance is measured through multi-class classification accuracy and semantic similarity to the gold explanation. Results highlight both the potential of LLMs for Czech-language fact verification and the limitations of the surrounding pipeline, identifying opportunities for future improvements in evidence quality filtering, temporal consistency, and rationale evaluation.
Description
Citation
Permanent link
Rights/License
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.