Detekce malwaru ze slabě označených URL pomocí metod hlubokého učení

Vit Zlámal

Deep learning based malware detection from weakly labeled URLs

Typ dokumentu

diplomová práce
master thesis

Autor

Vit Zlámal

Vedoucí práce

Brabec Jan

Oponent práce

Svatoš Martin

Studijní obor

Kybernetická bezpečnost

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra počítačů

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Strojové učení se v posledních letech stalo nepostradatelným nástrojem v boji s rostoucí kyberkriminalitou. V rámci této diplomové práce jsme implementovali strukturu na trénování neuronových sítí s velkým množstvím dat a distribuovaný evaluačním systém, který je možné použít v produkčním prostředí produktu Cognitive inteligence od firmy Cisco. Zaměřili jsme se především na klasifikaci URL adres, které jsme získali ze síťové telemetrie společnosti Cisco. Tento dataset z reálné praxe se vyznačuje tím, že jedna jeho část je označena jako pozitivní, zatímco ta druhá obsahuje neoznačené záznamy, a také vysokou měrou imbalance v měřítku 1500 ku 1 mezi 25 pozitivními třídami a jednou neoznačenou třídou. Celý životní cyklus modelu muže být obstarán pomocí jednoho příkazu v claudovém systému. V druhé části práce představujeme architekturu konvoluční neuronové sítě, která využívá informace z neověřených zdrojů ve formě slabého označení našich vzorků. Toto označení se následně využívá při tréninku klasifikátoru k odhalení pozitivních vzorků v neoznačené části dat. Tento proces nám umožňuje vnést více informace do trénovacího procesu a tím zlepšit jeho efektivitu.

In recent years, machine learning-based approaches are becoming a fundamental part of cybersecurity products to keep up with the growing number of cyber threats. In this thesis, we present the pipeline for large scale training and distributed evaluation of neural network models which is suitable for industrial use in Cisco Cognitive Intelligence production environment. We focused on the classification of URLs on the real world positive unlabeled dataset that originates in Cisco network telemetry with ratio 1 to 1500 between 25 positive classes and one unlabeled class. The whole model's life cycle can be managed by one task in the cloud service. The second part of the thesis introduces a convolutional neural network architecture which uses information from untrusted sources as weak labels for identifying positive samples in the unlabeled part of the dataset and thus bringing valuable information into the training process.