Detekce phishingových e-mailů pomocí technik zpracování přirozeného jazyka

Radek Starosta

Phishing detection using natural language processing

dc.contributor.advisor	Brabec Jan
dc.contributor.author	Radek Starosta
dc.date.accessioned	2021-01-22T11:51:22Z
dc.date.available	2021-01-22T11:51:22Z
dc.date.issued	2021-01-20
dc.identifier	KOS-984901601805
dc.identifier.uri	http://hdl.handle.net/10467/92724
dc.description.abstract	V této diplomové práci představujeme architekturu systému pro detekci cílených phishingových útoků. Nejprve prozkoumáme současné trendy v oblasti phishingu, a identifikujeme techniky a vzorce chování, které se v těchto škodlivých zprávách vyskytují. Navrhneme detektor pro call-to-action, neboli potenciálně nebezpečné žádosti, které jsou jedním ze signálů pro identifikaci phishingových e-mailů. Na tomto detektoru ukážeme vývoj v oblasti zpracování přirozeného jazyka. Na této úloze následně evaluujeme několik klasifikačních algoritmů, od klasických metod strojového učení po nejnovější modely založené na neuronových sítích s architekturou Transformer. Dále v programovacím jazyce Python implementujeme obecný, rozšiřitelný systém pro klasifikaci e-mailových zpráv, zpřístupníme jeho funkcionalitu pomocí aplikačního rozhraní s architekturou REST, a navrhneme škálovatelnou infrastrukturu pro jeho nasazení v cloudové platformě Microsoft Azure. V neposlední řadě optimalizujeme výpočetní výkonnost detektorů založených na architektuře Transformer. Oddělíme detektor potenciálně škodlivých žádostí do samostatné komponenty, ve které zrychlíme inferenci modelu vybráním vhodné infrastruktury a architektury, a optimalizací výpočetního grafu pomocí akcelerátoru ONNX Runtime. Účinek navržených vylepšení ověříme na veřejném e-mailovém datasetu Enron, na kterém pozorujeme až pětinásobné zrychlení.	cze
dc.description.abstract	In this thesis, we propose an architecture for an ensemble-based detection engine for targeted phishing attacks. We review the current phishing landscape and identify common phishing techniques and behaviors. Next, we develop a detector for call-to-action, a common phishing signal, and use it to showcase the impact of recent advances in natural language processing. We evaluate multiple classification algorithms, ranging from classic machine learning algorithms to state-of-the-art neural network Transformer models for language modeling, on the task of call-to-action detection. We implement an extensible e-mail classification pipeline using the Python programming language, expose its functionality through a REST API service, and design a scalable infrastructure setup for deploying this service in Microsoft Azure. Finally, we focus on optimizing the computational performance of Transformer-based detectors. We extract the call-to-action detector into a separate service, boost its performance by selecting suitable infrastructure and model architecture, and optimizing the computation graph with the ONNX Runtime accelerator. We validate the speedup from the proposed optimizations on the Enron e-mail dataset, where we observe a 5x increase in service throughput.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	phishing	cze
dc.subject	zpracování přirozeného jazyka	cze
dc.subject	klasifikace	cze
dc.subject	neuronové sítě	cze
dc.subject	nasazení modelů strojového učení	cze
dc.subject	phishing	eng
dc.subject	natural language processing	eng
dc.subject	classification	eng
dc.subject	neural networks	eng
dc.subject	deploying machine learning models	eng
dc.title	Detekce phishingových e-mailů pomocí technik zpracování přirozeného jazyka	cze
dc.title	Phishing detection using natural language processing	eng
dc.type	diplomová práce	cze
dc.type	master thesis	eng
dc.contributor.referee	Somol Petr
theses.degree.discipline	Softwarové inženýrství	cze
theses.degree.grantor	katedra počítačů	cze
theses.degree.programme	Otevřená informatika	cze

Soubory tohoto záznamu

Název:: F3-DP-2021-Starosta-Radek-Phishing ...
Velikost:: 1.879Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F3-DP-2021-Starosta-Radek-pril ...
Velikost:: 2.431Mb
Formát:: Neznámý
Popis:: PRILOHA
: Zobrazit/otevřít

Název:: F3-DP-2021-posudek-Brabec_Jan.pdf
Velikost:: 200.5Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F3-DP-2021-posudek-Somol_Petr.pdf
Velikost:: 194.5Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Diplomové práce - 13136 [892]

Zobrazit minimální záznam