Klasifikace volebních zpráv z Twitter jako FakeNews
Classifying Twitter election news as FakeNews
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Alina Vigriyanova
Vedoucí práce
Kuchař Jaroslav
Oponent práce
Kroha Petr
Studijní obor
Software Engineering (Bachelor, in English)Studijní program
Informatics (in English)Instituce přidělující hodnost
katedra softwarového inženýrstvíPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Cílem této bakalářské práce je oblast analýzy dat z aplikace Twitter za účelem výběru spolehlivých zpravodajských a volebních zpráv, analýza metod detekce FakeNews a jejich výsledků, prozkoumání vlivu modelování témat (topic modeling) na výslednou klasifikaci, a implementovat nástroj umožňující klasifikaci zpráv a vyhodnocení různých přístupů. Pro zpracování textu zpráv byly využity metody zpracování přirozeného jazyka jako je rozdělení na menší jednotky (slova), převod do základního tvaru, odstranění nedůležitých slov nebo vektorizace. Pro klasifikaci zpráv a výsledné porovnání bylo použito několik metod jako je: logistická regrese, metoda podpůrných vektorů nebo rozhodovací stromy. Pro modelování témat byla vybrána metoda LDA. This bachelor thesis aims to analyze Twitter archives of potentially state-backed Tweets, find a way of selecting reliable news from Twitter, obtain its counterpart of not Fake News, try different approaches to detect Fake News, analyze the approaches outcome, investigate possibilities of using topic modeling on the problem Fake News classification, and finally implement a tool that can help to classify FakeNews and evaluate the results. For text preprocessing NLP methods such as tokenization, stemming, stop words removal vectorizing were used. Logistic Regression, Linear Support Vector Classification, and Decision Tree classifiers were used to classify and evaluate the data. For topic modeling, Latent Dirichlet allocation was chosen.
Kolekce
- Bakalářské práce - 18102 [1608]