Zobrazit minimální záznam

Phishing detection using natural language processing



dc.contributor.advisorBrabec Jan
dc.contributor.authorRadek Starosta
dc.date.accessioned2021-01-22T11:51:22Z
dc.date.available2021-01-22T11:51:22Z
dc.date.issued2021-01-20
dc.identifierKOS-984901601805
dc.identifier.urihttp://hdl.handle.net/10467/92724
dc.description.abstractV této diplomové práci představujeme architekturu systému pro detekci cílených phishingových útoků. Nejprve prozkoumáme současné trendy v oblasti phishingu, a identifikujeme techniky a vzorce chování, které se v těchto škodlivých zprávách vyskytují. Navrhneme detektor pro call-to-action, neboli potenciálně nebezpečné žádosti, které jsou jedním ze signálů pro identifikaci phishingových e-mailů. Na tomto detektoru ukážeme vývoj v oblasti zpracování přirozeného jazyka. Na této úloze následně evaluujeme několik klasifikačních algoritmů, od klasických metod strojového učení po nejnovější modely založené na neuronových sítích s architekturou Transformer. Dále v programovacím jazyce Python implementujeme obecný, rozšiřitelný systém pro klasifikaci e-mailových zpráv, zpřístupníme jeho funkcionalitu pomocí aplikačního rozhraní s architekturou REST, a navrhneme škálovatelnou infrastrukturu pro jeho nasazení v cloudové platformě Microsoft Azure. V neposlední řadě optimalizujeme výpočetní výkonnost detektorů založených na architektuře Transformer. Oddělíme detektor potenciálně škodlivých žádostí do samostatné komponenty, ve které zrychlíme inferenci modelu vybráním vhodné infrastruktury a architektury, a optimalizací výpočetního grafu pomocí akcelerátoru ONNX Runtime. Účinek navržených vylepšení ověříme na veřejném e-mailovém datasetu Enron, na kterém pozorujeme až pětinásobné zrychlení.cze
dc.description.abstractIn this thesis, we propose an architecture for an ensemble-based detection engine for targeted phishing attacks. We review the current phishing landscape and identify common phishing techniques and behaviors. Next, we develop a detector for call-to-action, a common phishing signal, and use it to showcase the impact of recent advances in natural language processing. We evaluate multiple classification algorithms, ranging from classic machine learning algorithms to state-of-the-art neural network Transformer models for language modeling, on the task of call-to-action detection. We implement an extensible e-mail classification pipeline using the Python programming language, expose its functionality through a REST API service, and design a scalable infrastructure setup for deploying this service in Microsoft Azure. Finally, we focus on optimizing the computational performance of Transformer-based detectors. We extract the call-to-action detector into a separate service, boost its performance by selecting suitable infrastructure and model architecture, and optimizing the computation graph with the ONNX Runtime accelerator. We validate the speedup from the proposed optimizations on the Enron e-mail dataset, where we observe a 5x increase in service throughput.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectphishingcze
dc.subjectzpracování přirozeného jazykacze
dc.subjectklasifikacecze
dc.subjectneuronové sítěcze
dc.subjectnasazení modelů strojového učenícze
dc.subjectphishingeng
dc.subjectnatural language processingeng
dc.subjectclassificationeng
dc.subjectneural networkseng
dc.subjectdeploying machine learning modelseng
dc.titleDetekce phishingových e-mailů pomocí technik zpracování přirozeného jazykacze
dc.titlePhishing detection using natural language processingeng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.contributor.refereeSomol Petr
theses.degree.disciplineSoftwarové inženýrstvícze
theses.degree.grantorkatedra počítačůcze
theses.degree.programmeOtevřená informatikacze


Soubory tohoto záznamu





Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam