Demagog.cz Dataset for Automated Fact-Checking

Demagog.cz: datová sada pro automatizované ověřování faktů

Supervisors

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Date of defense

2025-06-12

Research Projects

Organizational Units

Journal Issue

Abstract

S rostoucím šířením dezinformací nabývá na významu automatizované ověřování faktů; zejména v případech, kdy je ruční ověřování časově náročné a obtížně škálovatelné. Přestože organizace jako Demagog poskytují kvalitní hodnocení skutečných výroků v českém jazyce, dosud chybí veřejně dostupný dataset, který by tato hodnocení struk turovaně spojoval s odkazovanými zdroji ve strojově zpracovatelné podobě. Navržený přístup tuto mezeru vyplňuje vytvořením nového datasetu na základě výstupů Dema gogu. Výsledný dataset obsahuje 1894 faktických výroků, z nichž každý je opatřen hodnoticím štítkem, vysvětlením v přirozeném jazyce a textově zpracovaným obsahem všech citovaných zdrojů. Pro účely sběru, očištění a konverze odkazovaného materiálu byl navržen a implementován vlastní postup, který zahrnuje i záložní přístup k archivo vaným webovým stránkám. Tento dataset následně sloužil pro experiment, v němž velký jazykový model generoval výrokové hodnocení a odůvodnění na základě přiloženého tvrzení a jeho relevantních informačních zdrojů. Výsledky byly hodnoceny pomocí vícetřídní klasifikace a sémantické podobnosti vůči referenčnímu vysvětlení. Výsledky ukazují nejen potenciál jazykových modelů pro ověřování faktů v češtině, ale také limity celého předloženého postupu a poukazují na možnosti dalšího zlepšení v oblasti f iltrování relevantních důkazů, časové konzistence nebo hodnocení kvality generovaných vysvětlení.

As misinformation proliferates, automated fact-checking becomes increasingly essential especially in contexts where manual verification is time-consuming and difficult to scale. While fact-checking institutions like Demagog provide high-quality assessments of real-world Czech claims, there exists no publicly available dataset that consolidates these claims with structured, machine-usable evidence and rationale. This work addresses that gap by constructing a novel dataset derived from Demagogs assessments. It includes 1,894 factual claims, each annotated with a veracity label, a human-written explanation, and parsed plain-text versions of all referenced source documents. A custom pipeline was built to retrieve, sanitize, and convert the cited evidence, with archival fallbacks to ensure robustness. The dataset is then used in a baseline experiment, where a large language model is prompted with both the claim and its evidence to jointly generate a verdict and explanation. Performance is measured through multi-class classification accuracy and semantic similarity to the gold explanation. Results highlight both the potential of LLMs for Czech-language fact verification and the limitations of the surrounding pipeline, identifying opportunities for future improvements in evidence quality filtering, temporal consistency, and rationale evaluation.

Description

Citation

Rights/License

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Endorsement

Review

Supplemented By

Referenced By