Zobrazit minimální záznam

Phishing Email Detection in Czech Language



dc.contributor.advisorŠedivý Jan
dc.contributor.authorListík Vít
dc.date.accessioned2015-05-28T10:59:00Z
dc.date.available2015-05-28T10:59:00Z
dc.identifierKOS-587864752105
dc.identifier.urihttp://hdl.handle.net/10467/61726
dc.description.abstractAktuálně používané metody pro detekci phishingových emailů jsou většinou založené na seznamech podvodných odkazů. Cílem této práce je automaticky detekovat tyto emaily. Používané techniky byly zhodnoceny a rozhodovací stromy založené na 25 signálech byly naučeny na trénovacích datech. Tento postup dosáhl slibných výsledků na testovacích datech, které se ale v praxi nepotvrdily. Použitá data pravděpodobně nebyla reprezentativní protože obsažené emaily byly staré. Bylo tedy navrženo nové řešení využívající manuálně nastavitelných vah. Toto řešení se skládá ze dvou fází. První fází je filtrace a druhou fází je samotná detekce phishingu. Filtrační fáze je použita kvůli snížení zátěže systému a skládá se ze dvou kroků. První krok je založen na 30 provozních signálech které přímo upravují metriku zvanou phishing-score, protože pro trénovací emaily nejsou tyto statistiky dostupné. Druhý krok je založen na rozhodovacích stromech, které využívají 25 signálů z obsahu emailu pro binární klasifikaci (phishing, ne-phishing). Druhá fáze je také rozdělena do dvou kroků a je podmíněna ziskem vysokého skóre ve filtrační fázi. V prvním kroku je detekována odesílatelova doména pomocí klíčových slov typických pro doménu, často používaných zdrojů obrázků, domén použitých v textu a hlavičkového from. Ve druhém kroku je nalezen nejpodezřelejší odkaz, o kterém je rozhodnuto, zda je jeho doména běžně odkazována detekovanou doménou. Tento krok rozhodne zda je email phishing přidáním nebo ubráním phishing-score. Celý systém je postaven na phishing-score. Pokud je doručen email který přesáhne limit phishing-score je upozorněn administrátor. Tento limit byl nastaven pomocí vyhodnocení ROC křivky, která byla vytvořena na základě ručně oklasifikovaných emailů s vysokým phishing-score.Při současném nastavení je systém schopen detekovat 98% phishingových emailů s 26% chybou.cze
dc.description.abstractPhishing emails detection methods which are used nowadays are often based on links blacklisting. Goal of this work is to detect these emails automatically. State of the art techniques were evaluated and decision tree classifier based on 25 features was trained on public phishing data set. Promising results of this approach reached with testing data set, were not confirmed in live traffic. Used data set is not representative most probably because it contains old emails. New solution using configurable scales was designed. This solution is based on two phases. First phase is prefiltering and second is phishing detection itself. Prefiltering phase is used to reduce heavy computations and consists of two steps. First step is based on 30 traffic statistics features which directly modifies metric called phishing-score because traffic statistics for phishing emails are not available for training. Second phase uses decision tree classifier, which is based on 25 content features, for binary classification (phishing, non- phishing). Second phase is also divided into two steps and is conditioned by high score from prefiltering phase. At first it detects sender domain by domain specific keywords, commonly used image sources, plain links to domains and header from. Secondly it detects most suspicious link and decides whether domain extracted from links is commonly targeted by detected domain. This step decides whether email is phishing or not by adding phishing- score. Whole system is based on phishing-score and administrator is noticed when some email reaches given phishing-score threshold. This threshold was set via ROC evaluation, which was built on manually classified emails with high phishing-score. In current setup this system is capable of detecting 98% of phishing attacks with 26% of misclassifications.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfeng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfcze
dc.subjectPhishing, email, strojové učení, zpracování přirozeného jazyka, Český jazykcze
dc.titleDetekce podvodných emailů v češtiněcze
dc.titlePhishing Email Detection in Czech Languageeng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.contributor.refereeBukovský Michal
theses.degree.disciplineSoftwarové inženýrstvícze
theses.degree.grantorkatedra počítačové grafiky a interakcecze
theses.degree.programmeOtevřená informatikacze


Soubory tohoto záznamu





Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam