Detekce propagandistických článků podle šíření na internetu

Ondřej Bouček

Detecting Propaganda Articles by its Internet Distribution Pattern

dc.contributor.advisor	García Sebastián
dc.contributor.author	Ondřej Bouček
dc.date.accessioned	2022-06-08T22:54:08Z
dc.date.available	2022-06-08T22:54:08Z
dc.date.issued	2022-06-08
dc.identifier	KOS-1198093659305
dc.identifier.uri	http://hdl.handle.net/10467/101412
dc.description.abstract	Tato práce navrhuje nový přístup k rozpoznávání výpočetní propagandy. Zatímco předchozí výzkum v této oblasti se zaměřuje buď na analýzu obsahu nebo na identifikaci škodlivých agentů na sociálních sítích, tato práce se zaměřuje na analýzu toho, zda je libovolný webový článek propagandou na základě studia jeho distribučního vzorce na internetu. Činí tak vytvořením grafu distribuce článků (Article Distribution Graph, ADG) pro každý jednotlivý článek, a to pomocí řady vyhledávačů a sociálních sítí. ADG popisuje, kde a jak byl článek odkazován či duplikován. Pro klasifikaci ADG jsme porovnali třei metodamy strojového učení: grafové neuronové sítě, klasifikátory Random Forest a SVM. Pro vyhodnocení metod jsme vytvořili a zveřejnili dataset \textit{CTU-Propaganda-V1}, který obsahuje 245 článků spolu s jejich ADG, obsahující údaje celkem o 24 014 článcích ve všech ADG dohromady. Propagandistické články, kterých je v datasetu 117, byly získány z databáze EUvsDisinfo a 128 nepropagandistických článků bylo vyhledáno a ověřeno ručně. Výsledky prokazují, že nejlepší metoda dokáže dosáhnout přesnosti 81,63~\% na testovacích datech, což považujeme za velmi dobrý výsledek rozpoznávání propagandy bez nutnosti analýzy jeho textu.	cze
dc.description.abstract	This thesis proposes a novel approach to computational propaganda detection. While previous research in the area of computational propaganda detection mostly focuses on either analysis of the content, or identifying malicious actors on social networks, this thesis aims to analyze if a web article is propaganda by studying its distribution pattern on the Internet. It does so by creating what we called an Article Distribution Graph (ADG) for every article in question, using various search engines, as well as social networks. The ADG represents where and how the article was referenced or duplicated. We experiment with three machine learning methods for the classification of the ADG: Graph Neural Networks, Random Forest and SVM. To evaluate the methods, we created and release a dataset \textit{CTU-Propaganda-V1}, containing 245 articles together with their ADGs, containing data about 24,014 articles in all the ADGs combined. The 117 propaganda articles in the dataset were collected from the EUvsDisinfo database, and the 128 non-propaganda articles were manually found and verified. Results show that the best method can achieve a 81.63~\% accuracy on unseen data, which is considered a very good result for the problem of detecting propaganda without text analysis.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	výpočetní propaganda	cze
dc.subject	dataset	cze
dc.subject	strojové učení	cze
dc.subject	grafové neuronové sítě	cze
dc.subject	computational propaganda	eng
dc.subject	dataset	eng
dc.subject	machine learning	eng
dc.subject	graph neural networks	eng
dc.title	Detekce propagandistických článků podle šíření na internetu	cze
dc.title	Detecting Propaganda Articles by its Internet Distribution Pattern	eng
dc.type	diplomová práce	cze
dc.type	master thesis	eng
dc.contributor.referee	Catania Carlos
theses.degree.discipline	Umělá inteligence	cze
theses.degree.grantor	katedra počítačů	cze
theses.degree.programme	Otevřená informatika	cze

Soubory tohoto záznamu

Název:: F3-DP-2022-Boucek-Ondrej-Maste ...
Velikost:: 794.8Kb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F3-DP-2022-Boucek-Ondrej-prilo ...
Velikost:: 6.269Mb
Formát:: Neznámý
Popis:: PRILOHA
: Zobrazit/otevřít

Název:: F3-DP-2022-posudek-Catania_Car ...
Velikost:: 134.3Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F3-DP-2022-posudek-Garcia_Seba ...
Velikost:: 752.9Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Diplomové práce - 13136 [966]

Zobrazit minimální záznam