Detection of Websites with Extremist Content

dc.contributor.advisor Smítková Janků, Ladislava
dc.contributor.author Minářová, Markéta
dc.contributor.referee Jiřina, Marcel
dc.date.accessioned 2022-06-17T22:52:54Z
dc.date.available 2022-06-17T22:52:54Z
dc.date.issued 2022-06-17
dc.description.abstract Tato bakalářská práce se zabývá detekcí extremismu v online prostředí, konkrétně detekcí neonacistických a saláfistických webových stránek. Cílem je vytvořit hybridní znalostní systém, který bude pomocí metody Support Vector Machines a klasifikačních pravidel znalostního systému klasifikovat dané stránky. Řešení tohoto problému staví na základě důkladné rešerše již existujících řešení detekce extremistických textů, obrázků a videí a následně jejich analýzy s pomocí odborné literatury. V rámci této práce byl vytvořen dataset extremistických a neextremistických webových stránek pomocí existujících textových dokumentů a obrázků. Metoda SVM byla použita pro klasifikaci textu a její výstup byl použit jako vstup do znalostního systému. Ten byl vytvořen pomocí shellu PyKe a celý program byl naprogramován v jazyce Python. Jednotlivé SVM modely dávaly velmi dobré výsledky s klasifikační přesností okolo 99 \%. Celková klasifikační přesnost systému byla 80 \%. cs
dc.description.abstract This Bachelor's Thesis deals with the detection of extremism in the online environment, speci-\linebreak fically the detection of Neo-Nazi and Salafi websites. The aim is to create a hybrid knowledge system that will classify the given websites using a Support Vector Machines method and the classification rules of the knowledge system. The solution to this problem is based on thorough research of existing solutions for detecting extremist texts, images and videos and then their analysis with the help of expert literature. In this work, a dataset of extremist and non-extremist websites was created using existing text documents and images. The SVM method was used for text classification and its output served as input to the knowledge system. This was created using the PyKe shell and the whole program was programmed in Python. The SVM models gave outstanding results with around 99 \% classification accuracy. The overall classification accuracy of the system was 80 \%. en
dc.identifier KOS-1065790604005
dc.identifier.uri http://hdl.handle.net/10467/102232
dc.publisher České vysoké učení technické v Praze cs
dc.publisher Czech Technical University in Prague en
dc.rights A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act. en
dc.rights Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění. cs
dc.subject online extremismus cs
dc.subject support vector machines cs
dc.subject strojové učení cs
dc.subject přirozené zpracování jazyka cs
dc.subject znalostní systém cs
dc.subject analýza sentimentu cs
dc.subject online extremism en
dc.subject support vector machines en
dc.subject machine learning en
dc.subject natural language processing en
dc.subject knowledge system en
dc.subject sentiment analysis en
dc.title Detekce webových stránek s extremistickým obsahem cs
dc.title Detection of Websites with Extremist Content en
dc.type bakalářská práce cs
dc.type bachelor thesis en
dspace.entity.type Publication
relation.isAdvisorOfPublication 2e081e4c-624f-4620-a8a9-297bc4e5b320
relation.isAdvisorOfPublication.latestForDiscovery 2e081e4c-624f-4620-a8a9-297bc4e5b320
relation.isAuthorOfPublication b2867fce-f978-46f8-83d3-78298cc38f62
relation.isAuthorOfPublication.latestForDiscovery b2867fce-f978-46f8-83d3-78298cc38f62
relation.isRefereeOfPublication 8fe14316-f906-4db5-824a-e26a77d5d422
relation.isRefereeOfPublication.latestForDiscovery 8fe14316-f906-4db5-824a-e26a77d5d422
theses.degree.discipline Znalostní inženýrství cs
theses.degree.grantor katedra aplikované matematiky cs
theses.degree.programme Informatika 2009 cs

Files

Original bundle

Now showing 1 - 3 of 3
Name:
F8-BP-2022-posudek-Jirina_Marcel.pdf
Size:
40.09 KB
Format:
Adobe Portable Document Format
Description:
POSUDEK
Name:
F8-BP-2022-posudek-Smitkova_Janku_Ladislava.pdf
Size:
49.26 KB
Format:
Adobe Portable Document Format
Description:
POSUDEK
Name:
F8-BP-2022-Minarova-Marketa-thesis.pdf
Size:
2.27 MB
Format:
Adobe Portable Document Format
Description:
PLNY_TEXT