Detekce phishingu

Mudruněk Filip

Phishing detection

Type of document

diplomová práce
master thesis

Author

Mudruněk Filip

Supervisor

Motl Jan

Opponent

Smítka Jiří

Field of study

Webové a softwarové inženýrství

Study program

Informatika

Institutions assigning rank

18102

Defended

2016-06-16

Rights

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf

Metadata

Show full item record

Abstract

Cílem této práce je analýza technik a metod využívaných k phishingu a návrh automatického klasifikátoru schopného rozeznat phishing od běžné elektronické komunikace. Součástí této práce je rešerše existujících řešení, rozbor problematiky výběru vhodných dat a návrh řešení. Představuji zde klasifikaci na základě několika zdrojů příznaků - vlastnosti textu emailu, domény a cílového webu. Zásluhou navrhované vícestupňové klasifikace není ovšem vždy nutné extrahovat všechny příznaky. Současně je tímto vyřešen kompromis rychlosti zpracování a klasifikační přesnosti. Předložena je i prototypová implementace, na které je porovnávána úspěšnost čtyř klasifikátorů z pohledu několika klasifikačních metrik. S klasifikátorem Random Forest, zdegenerovaným do baggingu, se mi podařilo v několika metrikách překonat většinu ostatních diskutovaných prací.

The aim of this work is to analyze the techniques and methods used for phishing and to design an automated classifier capable of distinguishing phishing from ordinary electronic communication. Part of this thesis is to research existing solutions, analyse the issue of selecting the appropriate data and design a solution. I present classification based on several sources of features - email text, domain and target website. Due to the proposed multi-stage classification, however, it is not always necessary to extract all the features. At the same time, this solution deals with the balance of processing speed and classification accuracy. I present a prototype solution, which is used to compare the success rate of 4 classifiers based on several classification metrics. With the Random Forest classifier, degenerated into bagging, I managed to outperform most of other discussed works, according to several metrics.