Detekce malwaru ze slabě označených URL pomocí metod hlubokého učení
Deep learning based malware detection from weakly labeled URLs
Typ dokumentu
diplomová prácemaster thesis
Autor
Vit Zlámal
Vedoucí práce
Brabec Jan
Oponent práce
Svatoš Martin
Studijní obor
Kybernetická bezpečnostStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra počítačůPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Strojové učení se v posledních letech stalo nepostradatelným nástrojem v boji s rostoucí kyberkriminalitou. V rámci této diplomové práce jsme implementovali strukturu na trénování neuronových sítí s velkým množstvím dat a distribuovaný evaluačním systém, který je možné použít v produkčním prostředí produktu Cognitive inteligence od firmy Cisco. Zaměřili jsme se především na klasifikaci URL adres, které jsme získali ze síťové telemetrie společnosti Cisco. Tento dataset z reálné praxe se vyznačuje tím, že jedna jeho část je označena jako pozitivní, zatímco ta druhá obsahuje neoznačené záznamy, a také vysokou měrou imbalance v měřítku 1500 ku 1 mezi 25 pozitivními třídami a jednou neoznačenou třídou. Celý životní cyklus modelu muže být obstarán pomocí jednoho příkazu v claudovém systému. V druhé části práce představujeme architekturu konvoluční neuronové sítě, která využívá informace z neověřených zdrojů ve formě slabého označení našich vzorků. Toto označení se následně využívá při tréninku klasifikátoru k odhalení pozitivních vzorků v neoznačené části dat. Tento proces nám umožňuje vnést více informace do trénovacího procesu a tím zlepšit jeho efektivitu. In recent years, machine learning-based approaches are becoming a fundamental part of cybersecurity products to keep up with the growing number of cyber threats. In this thesis, we present the pipeline for large scale training and distributed evaluation of neural network models which is suitable for industrial use in Cisco Cognitive Intelligence production environment. We focused on the classification of URLs on the real world positive unlabeled dataset that originates in Cisco network telemetry with ratio 1 to 1500 between 25 positive classes and one unlabeled class. The whole model's life cycle can be managed by one task in the cloud service. The second part of the thesis introduces a convolutional neural network architecture which uses information from untrusted sources as weak labels for identifying positive samples in the unlabeled part of the dataset and thus bringing valuable information into the training process.
Kolekce
- Diplomové práce - 13136 [892]