Detekce fake news metodami zpracování přirozeného jazyka

Denis Řeháček

Detecting Fake News Using NLP Methods

dc.contributor.advisor	Drchal Jan
dc.contributor.author	Denis Řeháček
dc.date.accessioned	2020-01-24T10:51:18Z
dc.date.available	2020-01-24T10:51:18Z
dc.date.issued	2020-01-21
dc.identifier	KOS-860412731105
dc.identifier.uri	http://hdl.handle.net/10467/86030
dc.description.abstract	Tato práce představuje problematiku dezinformací ve světě bohatém na informace. Detekce Fake News (falešných zpráv) byla řešena jako text classification problem. Bylo provedeno více než sto experimentů s cílem nalézt vhodnou kombinaci zpracování přirozeného jazyka (NLP) a efektivní architektury Neuronové sítě. Specifika a limity tohoto přístupu byla srovnána s jinými úlohami klasifikace textů. Byl použit existující dataset falešných zpráv i několik kombinací dat získaných konkrétně pro tuto práci. Tento projekt jedinečný ve zpracování článků v mnoha evropských jazycích, pokrývajících stejná témata v obou kategoriích - spolehlivé a dezinformační zprávy. Nejlepší přesnosti bylo dosaženo pomocí konvoluční neuronové sítě a to s až 99,9\% správné predikce na existujícím souboru dat a více než 98\% ve většině experimentů na menších samo-získaných datech, což předčilo Self-attention mechanismus. Lepších výsledků bylo dosaženo při použití původních textů namísto jejich lidmi psanými shrnutími (a to i přes to, že druhá možnost byla otestována na větším souboru dat). Vzhledem k vlastnostem datových sad (stejná témata v obou třídách) se lze předpokládat, že existují jazykové vzory specifické pro každou z kategorií, které byly ve shrnutích ztraceny.	cze
dc.description.abstract	This thesis introduces the problem of disinformation in an information-rich world. Fake News detection was addressed as a text classification problem. More than a hundred experiments were done to find an appropriate combination of pre-processing and efficient Neural Network architecture, relieving some specifics and limitations of the Fake News detection problem compared to other text classification tasks. An existing Fake News dataset was used as well as several combinations of a self-obtained data. The work is unique in processing news articles in numerous European languages, covering the same topics in both categories - reliable and disinformation news. The best accuracy was achieved by a convolutional based Neural Network, with up to 99.9\% of correct prediction on the existing dataset, and over 98\% in most experiments on the smaller self-obtained data, outperforming Self-attention mechanism. Better results were achieved when using the original texts instead of human-written summaries (even though the second option was trained on a larger dataset). Considering the datasets properties (same topics in both classes), the results suggest, there are probably language patterns distinctive for each of the two categories that were lost in the human-written summaries.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	NLP	cze
dc.subject	zpracování přirozeného jazyka	cze
dc.subject	AI	cze
dc.subject	umělá inteligence	cze
dc.subject	Fake News	cze
dc.subject	dezinformace	cze
dc.subject	klasifikace textu	cze
dc.subject	NLP	eng
dc.subject	Natural Language Processing	eng
dc.subject	AI	eng
dc.subject	Artificial Intelligence	eng
dc.subject	Fake News	eng
dc.subject	Disinformation	eng
dc.subject	Multilingual Text Classification	eng
dc.title	Detekce fake news metodami zpracování přirozeného jazyka	cze
dc.title	Detecting Fake News Using NLP Methods	eng
dc.type	diplomová práce	cze
dc.type	master thesis	eng
dc.contributor.referee	Šír Gustav
theses.degree.discipline	Umělá inteligence	cze
theses.degree.grantor	katedra počítačů	cze
theses.degree.programme	Otevřená informatika	cze

Soubory tohoto záznamu

Název:: F3-DP-2020-Rehacek-Denis-thesis.pdf
Velikost:: 1.912Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F3-DP-2020-Rehacek-Denis-prilo ...
Velikost:: 170 bajtů
Formát:: Neznámý
Popis:: PRILOHA
: Zobrazit/otevřít

Název:: F3-DP-2020-Rehacek-Denis-prilo ...
Velikost:: 440.0Kb
Formát:: PDF
Popis:: PRILOHA
: Zobrazit/otevřít

Název:: F3-DP-2020-Rehacek-Denis-prilo ...
Velikost:: 1.912Mb
Formát:: PDF
Popis:: PRILOHA
: Zobrazit/otevřít

Název:: F3-DP-2020-Rehacek-Denis-prilo ...
Velikost:: 1.792Mb
Formát:: Neznámý
Popis:: PRILOHA
: Zobrazit/otevřít

Název:: F3-DP-2020-posudek-Sir_Gustav.pdf
Velikost:: 143.1Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F3-DP-2020-posudek-Drchal_Jan.pdf
Velikost:: 220.1Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Diplomové práce - 13136 [892]

Zobrazit minimální záznam