Detekce propagandistických článků podle šíření na internetu

Ondřej Bouček

Detecting Propaganda Articles by its Internet Distribution Pattern

Typ dokumentu

diplomová práce
master thesis

Autor

Ondřej Bouček

Vedoucí práce

García Sebastián

Oponent práce

Catania Carlos

Studijní obor

Umělá inteligence

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra počítačů

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Tato práce navrhuje nový přístup k rozpoznávání výpočetní propagandy. Zatímco předchozí výzkum v této oblasti se zaměřuje buď na analýzu obsahu nebo na identifikaci škodlivých agentů na sociálních sítích, tato práce se zaměřuje na analýzu toho, zda je libovolný webový článek propagandou na základě studia jeho distribučního vzorce na internetu. Činí tak vytvořením grafu distribuce článků (Article Distribution Graph, ADG) pro každý jednotlivý článek, a to pomocí řady vyhledávačů a sociálních sítí. ADG popisuje, kde a jak byl článek odkazován či duplikován. Pro klasifikaci ADG jsme porovnali třei metodamy strojového učení: grafové neuronové sítě, klasifikátory Random Forest a SVM. Pro vyhodnocení metod jsme vytvořili a zveřejnili dataset \textit{CTU-Propaganda-V1}, který obsahuje 245 článků spolu s jejich ADG, obsahující údaje celkem o 24 014 článcích ve všech ADG dohromady. Propagandistické články, kterých je v datasetu 117, byly získány z databáze EUvsDisinfo a 128 nepropagandistických článků bylo vyhledáno a ověřeno ručně. Výsledky prokazují, že nejlepší metoda dokáže dosáhnout přesnosti 81,63~\% na testovacích datech, což považujeme za velmi dobrý výsledek rozpoznávání propagandy bez nutnosti analýzy jeho textu.

This thesis proposes a novel approach to computational propaganda detection. While previous research in the area of computational propaganda detection mostly focuses on either analysis of the content, or identifying malicious actors on social networks, this thesis aims to analyze if a web article is propaganda by studying its distribution pattern on the Internet. It does so by creating what we called an Article Distribution Graph (ADG) for every article in question, using various search engines, as well as social networks. The ADG represents where and how the article was referenced or duplicated. We experiment with three machine learning methods for the classification of the ADG: Graph Neural Networks, Random Forest and SVM. To evaluate the methods, we created and release a dataset \textit{CTU-Propaganda-V1}, containing 245 articles together with their ADGs, containing data about 24,014 articles in all the ADGs combined. The 117 propaganda articles in the dataset were collected from the EUvsDisinfo database, and the 128 non-propaganda articles were manually found and verified. Results show that the best method can achieve a 81.63~\% accuracy on unseen data, which is considered a very good result for the problem of detecting propaganda without text analysis.