Detekce propagandistických článků podle šíření na internetu
Detecting Propaganda Articles by its Internet Distribution Pattern
Typ dokumentu
diplomová prácemaster thesis
Autor
Ondřej Bouček
Vedoucí práce
García Sebastián
Oponent práce
Catania Carlos
Studijní obor
Umělá inteligenceStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra počítačůPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Tato práce navrhuje nový přístup k rozpoznávání výpočetní propagandy. Zatímco předchozí výzkum v této oblasti se zaměřuje buď na analýzu obsahu nebo na identifikaci škodlivých agentů na sociálních sítích, tato práce se zaměřuje na analýzu toho, zda je libovolný webový článek propagandou na základě studia jeho distribučního vzorce na internetu. Činí tak vytvořením grafu distribuce článků (Article Distribution Graph, ADG) pro každý jednotlivý článek, a to pomocí řady vyhledávačů a sociálních sítí. ADG popisuje, kde a jak byl článek odkazován či duplikován. Pro klasifikaci ADG jsme porovnali třei metodamy strojového učení: grafové neuronové sítě, klasifikátory Random Forest a SVM. Pro vyhodnocení metod jsme vytvořili a zveřejnili dataset \textit{CTU-Propaganda-V1}, který obsahuje 245 článků spolu s jejich ADG, obsahující údaje celkem o 24 014 článcích ve všech ADG dohromady. Propagandistické články, kterých je v datasetu 117, byly získány z databáze EUvsDisinfo a 128 nepropagandistických článků bylo vyhledáno a ověřeno ručně. Výsledky prokazují, že nejlepší metoda dokáže dosáhnout přesnosti 81,63~\% na testovacích datech, což považujeme za velmi dobrý výsledek rozpoznávání propagandy bez nutnosti analýzy jeho textu. This thesis proposes a novel approach to computational propaganda detection. While previous research in the area of computational propaganda detection mostly focuses on either analysis of the content, or identifying malicious actors on social networks, this thesis aims to analyze if a web article is propaganda by studying its distribution pattern on the Internet. It does so by creating what we called an Article Distribution Graph (ADG) for every article in question, using various search engines, as well as social networks. The ADG represents where and how the article was referenced or duplicated. We experiment with three machine learning methods for the classification of the ADG: Graph Neural Networks, Random Forest and SVM. To evaluate the methods, we created and release a dataset \textit{CTU-Propaganda-V1}, containing 245 articles together with their ADGs, containing data about 24,014 articles in all the ADGs combined. The 117 propaganda articles in the dataset were collected from the EUvsDisinfo database, and the 128 non-propaganda articles were manually found and verified. Results show that the best method can achieve a 81.63~\% accuracy on unseen data, which is considered a very good result for the problem of detecting propaganda without text analysis.
Kolekce
- Diplomové práce - 13136 [902]