Detekce webových stránek s extremistickým obsahem
Detection of Websites with Extremist Content
Type of document
bakalářská prácebachelor thesis
Author
Markéta Minářová
Supervisor
Smítková Janků Ladislava
Opponent
Jiřina Marcel
Field of study
Znalostní inženýrstvíStudy program
Informatika 2009Institutions assigning rank
katedra aplikované matematikyRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Tato bakalářská práce se zabývá detekcí extremismu v online prostředí, konkrétně detekcí neonacistických a saláfistických webových stránek. Cílem je vytvořit hybridní znalostní systém, který bude pomocí metody Support Vector Machines a klasifikačních pravidel znalostního systému klasifikovat dané stránky. Řešení tohoto problému staví na základě důkladné rešerše již existujících řešení detekce extremistických textů, obrázků a videí a následně jejich analýzy s pomocí odborné literatury. V rámci této práce byl vytvořen dataset extremistických a neextremistických webových stránek pomocí existujících textových dokumentů a obrázků. Metoda SVM byla použita pro klasifikaci textu a její výstup byl použit jako vstup do znalostního systému. Ten byl vytvořen pomocí shellu PyKe a celý program byl naprogramován v jazyce Python. Jednotlivé SVM modely dávaly velmi dobré výsledky s klasifikační přesností okolo 99 \%. Celková klasifikační přesnost systému byla 80 \%. This Bachelor's Thesis deals with the detection of extremism in the online environment, speci-\linebreak fically the detection of Neo-Nazi and Salafi websites. The aim is to create a hybrid knowledge system that will classify the given websites using a Support Vector Machines method and the classification rules of the knowledge system. The solution to this problem is based on thorough research of existing solutions for detecting extremist texts, images and videos and then their analysis with the help of expert literature. In this work, a dataset of extremist and non-extremist websites was created using existing text documents and images. The SVM method was used for text classification and its output served as input to the knowledge system. This was created using the PyKe shell and the whole program was programmed in Python. The SVM models gave outstanding results with around 99 \% classification accuracy. The overall classification accuracy of the system was 80 \%.
Collections
- Bakalářské práce - 18105 [292]