Detekce podvodných emailů v češtině

Listík Vít

Phishing Email Detection in Czech Language

dc.contributor.advisor	Šedivý Jan
dc.contributor.author	Listík Vít
dc.date.accessioned	2015-05-28T10:59:00Z
dc.date.available	2015-05-28T10:59:00Z
dc.identifier	KOS-587864752105
dc.identifier.uri	http://hdl.handle.net/10467/61726
dc.description.abstract	Aktuálně používané metody pro detekci phishingových emailů jsou většinou založené na seznamech podvodných odkazů. Cílem této práce je automaticky detekovat tyto emaily. Používané techniky byly zhodnoceny a rozhodovací stromy založené na 25 signálech byly naučeny na trénovacích datech. Tento postup dosáhl slibných výsledků na testovacích datech, které se ale v praxi nepotvrdily. Použitá data pravděpodobně nebyla reprezentativní protože obsažené emaily byly staré. Bylo tedy navrženo nové řešení využívající manuálně nastavitelných vah. Toto řešení se skládá ze dvou fází. První fází je filtrace a druhou fází je samotná detekce phishingu. Filtrační fáze je použita kvůli snížení zátěže systému a skládá se ze dvou kroků. První krok je založen na 30 provozních signálech které přímo upravují metriku zvanou phishing-score, protože pro trénovací emaily nejsou tyto statistiky dostupné. Druhý krok je založen na rozhodovacích stromech, které využívají 25 signálů z obsahu emailu pro binární klasifikaci (phishing, ne-phishing). Druhá fáze je také rozdělena do dvou kroků a je podmíněna ziskem vysokého skóre ve filtrační fázi. V prvním kroku je detekována odesílatelova doména pomocí klíčových slov typických pro doménu, často používaných zdrojů obrázků, domén použitých v textu a hlavičkového from. Ve druhém kroku je nalezen nejpodezřelejší odkaz, o kterém je rozhodnuto, zda je jeho doména běžně odkazována detekovanou doménou. Tento krok rozhodne zda je email phishing přidáním nebo ubráním phishing-score. Celý systém je postaven na phishing-score. Pokud je doručen email který přesáhne limit phishing-score je upozorněn administrátor. Tento limit byl nastaven pomocí vyhodnocení ROC křivky, která byla vytvořena na základě ručně oklasifikovaných emailů s vysokým phishing-score.Při současném nastavení je systém schopen detekovat 98% phishingových emailů s 26% chybou.	cze
dc.description.abstract	Phishing emails detection methods which are used nowadays are often based on links blacklisting. Goal of this work is to detect these emails automatically. State of the art techniques were evaluated and decision tree classifier based on 25 features was trained on public phishing data set. Promising results of this approach reached with testing data set, were not confirmed in live traffic. Used data set is not representative most probably because it contains old emails. New solution using configurable scales was designed. This solution is based on two phases. First phase is prefiltering and second is phishing detection itself. Prefiltering phase is used to reduce heavy computations and consists of two steps. First step is based on 30 traffic statistics features which directly modifies metric called phishing-score because traffic statistics for phishing emails are not available for training. Second phase uses decision tree classifier, which is based on 25 content features, for binary classification (phishing, non- phishing). Second phase is also divided into two steps and is conditioned by high score from prefiltering phase. At first it detects sender domain by domain specific keywords, commonly used image sources, plain links to domains and header from. Secondly it detects most suspicious link and decides whether domain extracted from links is commonly targeted by detected domain. This step decides whether email is phishing or not by adding phishing- score. Whole system is based on phishing-score and administrator is noticed when some email reaches given phishing-score threshold. This threshold was set via ROC evaluation, which was built on manually classified emails with high phishing-score. In current setup this system is capable of detecting 98% of phishing attacks with 26% of misclassifications.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf	cze
dc.subject	Phishing, email, strojové učení, zpracování přirozeného jazyka, Český jazyk	cze
dc.title	Detekce podvodných emailů v češtině	cze
dc.title	Phishing Email Detection in Czech Language	eng
dc.type	diplomová práce	cze
dc.type	master thesis	eng
dc.contributor.referee	Bukovský Michal
theses.degree.discipline	Softwarové inženýrství	cze
theses.degree.grantor	katedra počítačové grafiky a interakce	cze
theses.degree.programme	Otevřená informatika	cze

Soubory tohoto záznamu

Název:: F3-DP-2015-Listik-Vit-priloha- ...
Velikost:: 4.182Mb
Formát:: Neznámý
Popis:: PRILOHA
: Zobrazit/otevřít

Název:: F3-DP-2015-Listik-Vit-Phishing ...
Velikost:: 1.674Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F3-DP-2015-posudek-Sedivy_Jan.pdf
Velikost:: 79.56Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F3-DP-2015-posudek-Bukovsky_Mi ...
Velikost:: 550.7Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Diplomové práce - 13139 [413]

Zobrazit minimální záznam