Detekce phishingových e-mailů pomocí technik zpracování přirozeného jazyka

Radek Starosta

Phishing detection using natural language processing

Typ dokumentu

diplomová práce
master thesis

Autor

Radek Starosta

Vedoucí práce

Brabec Jan

Oponent práce

Somol Petr

Studijní obor

Softwarové inženýrství

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra počítačů

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

V této diplomové práci představujeme architekturu systému pro detekci cílených phishingových útoků. Nejprve prozkoumáme současné trendy v oblasti phishingu, a identifikujeme techniky a vzorce chování, které se v těchto škodlivých zprávách vyskytují. Navrhneme detektor pro call-to-action, neboli potenciálně nebezpečné žádosti, které jsou jedním ze signálů pro identifikaci phishingových e-mailů. Na tomto detektoru ukážeme vývoj v oblasti zpracování přirozeného jazyka. Na této úloze následně evaluujeme několik klasifikačních algoritmů, od klasických metod strojového učení po nejnovější modely založené na neuronových sítích s architekturou Transformer. Dále v programovacím jazyce Python implementujeme obecný, rozšiřitelný systém pro klasifikaci e-mailových zpráv, zpřístupníme jeho funkcionalitu pomocí aplikačního rozhraní s architekturou REST, a navrhneme škálovatelnou infrastrukturu pro jeho nasazení v cloudové platformě Microsoft Azure. V neposlední řadě optimalizujeme výpočetní výkonnost detektorů založených na architektuře Transformer. Oddělíme detektor potenciálně škodlivých žádostí do samostatné komponenty, ve které zrychlíme inferenci modelu vybráním vhodné infrastruktury a architektury, a optimalizací výpočetního grafu pomocí akcelerátoru ONNX Runtime. Účinek navržených vylepšení ověříme na veřejném e-mailovém datasetu Enron, na kterém pozorujeme až pětinásobné zrychlení.

In this thesis, we propose an architecture for an ensemble-based detection engine for targeted phishing attacks. We review the current phishing landscape and identify common phishing techniques and behaviors. Next, we develop a detector for call-to-action, a common phishing signal, and use it to showcase the impact of recent advances in natural language processing. We evaluate multiple classification algorithms, ranging from classic machine learning algorithms to state-of-the-art neural network Transformer models for language modeling, on the task of call-to-action detection. We implement an extensible e-mail classification pipeline using the Python programming language, expose its functionality through a REST API service, and design a scalable infrastructure setup for deploying this service in Microsoft Azure. Finally, we focus on optimizing the computational performance of Transformer-based detectors. We extract the call-to-action detector into a separate service, boost its performance by selecting suitable infrastructure and model architecture, and optimizing the computation graph with the ONNX Runtime accelerator. We validate the speedup from the proposed optimizations on the Enron e-mail dataset, where we observe a 5x increase in service throughput.