Detekce phishingu
Phishing detection
Type of document
diplomová prácemaster thesis
Author
Mudruněk Filip
Supervisor
Motl Jan
Opponent
Smítka Jiří
Field of study
Webové a softwarové inženýrstvíStudy program
InformatikaInstitutions assigning rank
18102Defended
2016-06-16Rights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Metadata
Show full item recordAbstract
Cílem této práce je analýza technik a metod využívaných k phishingu a návrh automatického klasifikátoru schopného rozeznat phishing od běžné elektronické komunikace. Součástí této práce je rešerše existujících řešení, rozbor problematiky výběru vhodných dat a návrh řešení. Představuji zde klasifikaci na základě několika zdrojů příznaků - vlastnosti textu emailu, domény a cílového webu. Zásluhou navrhované vícestupňové klasifikace není ovšem vždy nutné extrahovat všechny příznaky. Současně je tímto vyřešen kompromis rychlosti zpracování a klasifikační přesnosti. Předložena je i prototypová implementace, na které je porovnávána úspěšnost čtyř klasifikátorů z pohledu několika klasifikačních metrik. S klasifikátorem Random Forest, zdegenerovaným do baggingu, se mi podařilo v několika metrikách překonat většinu ostatních diskutovaných prací. The aim of this work is to analyze the techniques and methods used for phishing and to design an automated classifier capable of distinguishing phishing from ordinary electronic communication. Part of this thesis is to research existing solutions, analyse the issue of selecting the appropriate data and design a solution. I present classification based on several sources of features - email text, domain and target website. Due to the proposed multi-stage classification, however, it is not always necessary to extract all the features. At the same time, this solution deals with the balance of processing speed and classification accuracy. I present a prototype solution, which is used to compare the success rate of 4 classifiers based on several classification metrics. With the Random Forest classifier, degenerated into bagging, I managed to outperform most of other discussed works, according to several metrics.
Collections
- Diplomové práce - 18102 [1006]