Demagog.cz Dataset for Automated Fact-Checking
| dc.contributor.advisor | Drchal, Jan | |
| dc.contributor.author | Halász, Matyáš | |
| dc.contributor.referee | Mařík, Radek | |
| dc.date.accepted | 2025-06-12 | |
| dc.date.accessioned | 2025-06-07T22:54:57Z | |
| dc.date.available | 2025-06-07T22:54:57Z | |
| dc.date.issued | 2025-05-23 | |
| dc.description.abstract | S rostoucím šířením dezinformací nabývá na významu automatizované ověřování faktů; zejména v případech, kdy je ruční ověřování časově náročné a obtížně škálovatelné. Přestože organizace jako Demagog poskytují kvalitní hodnocení skutečných výroků v českém jazyce, dosud chybí veřejně dostupný dataset, který by tato hodnocení struk turovaně spojoval s odkazovanými zdroji ve strojově zpracovatelné podobě. Navržený přístup tuto mezeru vyplňuje vytvořením nového datasetu na základě výstupů Dema gogu. Výsledný dataset obsahuje 1894 faktických výroků, z nichž každý je opatřen hodnoticím štítkem, vysvětlením v přirozeném jazyce a textově zpracovaným obsahem všech citovaných zdrojů. Pro účely sběru, očištění a konverze odkazovaného materiálu byl navržen a implementován vlastní postup, který zahrnuje i záložní přístup k archivo vaným webovým stránkám. Tento dataset následně sloužil pro experiment, v němž velký jazykový model generoval výrokové hodnocení a odůvodnění na základě přiloženého tvrzení a jeho relevantních informačních zdrojů. Výsledky byly hodnoceny pomocí vícetřídní klasifikace a sémantické podobnosti vůči referenčnímu vysvětlení. Výsledky ukazují nejen potenciál jazykových modelů pro ověřování faktů v češtině, ale také limity celého předloženého postupu a poukazují na možnosti dalšího zlepšení v oblasti f iltrování relevantních důkazů, časové konzistence nebo hodnocení kvality generovaných vysvětlení. | cs |
| dc.description.abstract | As misinformation proliferates, automated fact-checking becomes increasingly essential especially in contexts where manual verification is time-consuming and difficult to scale. While fact-checking institutions like Demagog provide high-quality assessments of real-world Czech claims, there exists no publicly available dataset that consolidates these claims with structured, machine-usable evidence and rationale. This work addresses that gap by constructing a novel dataset derived from Demagogs assessments. It includes 1,894 factual claims, each annotated with a veracity label, a human-written explanation, and parsed plain-text versions of all referenced source documents. A custom pipeline was built to retrieve, sanitize, and convert the cited evidence, with archival fallbacks to ensure robustness. The dataset is then used in a baseline experiment, where a large language model is prompted with both the claim and its evidence to jointly generate a verdict and explanation. Performance is measured through multi-class classification accuracy and semantic similarity to the gold explanation. Results highlight both the potential of LLMs for Czech-language fact verification and the limitations of the surrounding pipeline, identifying opportunities for future improvements in evidence quality filtering, temporal consistency, and rationale evaluation. | en |
| dc.identifier | KOS-1244042550605 | |
| dc.identifier.uri | http://hdl.handle.net/10467/122797 | |
| dc.language.iso | eng | |
| dc.publisher | České vysoké učení technické v Praze | cs |
| dc.publisher | Czech Technical University in Prague | en |
| dc.rights | Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění. | cs |
| dc.rights | A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act. | en |
| dc.subject | Automatické ověřování faktů | cs |
| dc.subject | Ověřování tvrzení | cs |
| dc.subject | Čeština | cs |
| dc.subject | Datová sada | cs |
| dc.subject | Demagog | cs |
| dc.subject | Automated Fact-Checking | en |
| dc.subject | Claim Verification | en |
| dc.subject | Czech | en |
| dc.subject | Dataset | en |
| dc.subject | Demagog | en |
| dc.title | Demagog.cz: datová sada pro automatizované ověřování faktů | cs |
| dc.title | Demagog.cz Dataset for Automated Fact-Checking | en |
| dc.type | bakalářská práce | cs |
| dc.type | bachelor thesis | en |
| dspace.entity.type | Publication | |
| relation.isAdvisorOfPublication | 056b7990-7f9a-428c-8f8d-226aa0397f07 | |
| relation.isAdvisorOfPublication.latestForDiscovery | 056b7990-7f9a-428c-8f8d-226aa0397f07 | |
| relation.isAuthorOfPublication | f254d7ad-c5f2-4afa-bd94-76b7a06a42af | |
| relation.isAuthorOfPublication.latestForDiscovery | f254d7ad-c5f2-4afa-bd94-76b7a06a42af | |
| relation.isRefereeOfPublication | c4d151ca-c955-426d-9f4d-4556825b8c7f | |
| relation.isRefereeOfPublication.latestForDiscovery | c4d151ca-c955-426d-9f4d-4556825b8c7f | |
| theses.degree.grantor | katedra kybernetiky | cs |
| theses.degree.programme | Otevřená informatika | cs |
Files
Original bundle
1 - 5 of 5
- Name:
- Posudek-oponentHM_RM.pdf
- Size:
- 262.76 KB
- Format:
- Adobe Portable Document Format
- Description:
- REVIEW
- Access level:
- OPEN
- Access rights:
- openly accessible
- Name:
- Posudek_vedouci_Halász.pdf
- Size:
- 139.96 KB
- Format:
- Adobe Portable Document Format
- Description:
- REVIEW
- Access level:
- OPEN
- Access rights:
- openly accessible
- Name:
- F3-BP-2025-Halasz-Matyas-priloha-src.zip
- Size:
- 14.68 MB
- Format:
- Unknown data format
- Description:
- ATTACHMENT
- Access level:
- OPEN
- Access rights:
- openly accessible
- Name:
- F3-BP-2025-Halasz-Matyas-thesis_bc_final.pdf
- Size:
- 2.62 MB
- Format:
- Adobe Portable Document Format
- Description:
- THESIS
- Access level:
- OPEN
- Access rights:
- openly accessible
- Name:
- Prubeh-obhajoby.pdf
- Size:
- 613.39 KB
- Format:
- Adobe Portable Document Format
- Description:
- DEFENSE_PROCEEDINGS
- Access level:
- OPEN
- Access rights:
- openly accessible