Detekce malicious URL v reálném síťovém provozu pomocí strojového učení
Malicious URL Detection in Real Network Traffic Using Machine Learning Methods
Type of document
bakalářská prácebachelor thesis
Author
Vladimír Vávra
Supervisor
Hlaváč Jaroslav
Opponent
Vašata Daniel
Field of study
Umělá inteligence 2021Study program
InformatikaInstitutions assigning rank
katedra aplikované matematikyRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Tato práce se zabývá detekcí škodlivých URL pouze na základě samotného textového řetězce URL, přičemž cílem je vyvinout model rychlejší než referenční BERT-Small, avšak srovnatelný z hlediska relevantních metrik. Experimenty byly provedeny jak na veřejně dostupných datasetech, tak na soukromém datasetu sesbíraném z reálné počítačové sítě. Před představením finálního řešení je uvedena důkladná analýza datasetů a podrobný popis metod pro detekci škodlivých URL. Pro dosažení nejlepších výsledků byly zkombinovány dva vzájemně se doplňující přístupy. Prvním přístupem bylo trénování menších modelů, optimalizace jejich hyperparametrů a návrh nové augmentační metody -- maskování domén, která zabraňuje modelu zapamatovávat si konkrétní názvy druhých úrovní domén a nutí jej soustředit se na obecné charakteristiky řetězce. Pro další zrychlení inferencí byly aplikovány metody komprese modelu, jako je statická kvantizace a výpočty ve formátu Float16. Výsledný model BERT-Mini s Float16 a maskováním domén překonal referenční BERT-Small v hodnotě recall a dosáhl 9,5násobného zrychlení propustnosti. This thesis addresses malicious URL detection using only the URL string, aiming to develop a model faster than the BERT-Small baseline while maintaining comparable predictive performance. Experiments were conducted on both publicly available datasets and a private dataset collected from a real computer network. A thorough analysis of the datasets and a detailed description of methods for malicious URL detection are provided prior to proposing the final solution. Two complementary approaches were combined to achieve the best results. The first one involves training smaller models, optimizing their hyper-parameters and proposing a new augmentation method -- domain masking, which prevents model from memorizing specific second level domain names and forces it to focus on general string features. To further improve inference speed, model compression techniques, such as static quantization, computation in Float16, were applied. The resulting BERT-Mini model with Float16 and domain masking surpassed the BERT-Small baseline in recall and achieved a 9.5x throughput improvement.
Collections
- Bakalářské práce - 18105 [369]