Detekce anomálií v threat intelligence datech

Marek Petr

Anomaly detection in threat intelligence data

Typ dokumentu

diplomová práce
master thesis

Autor

Marek Petr

Vedoucí práce

Kopřiva Štěpán

Oponent práce

Krupička Mikuláš

Studijní obor

Umělá inteligence

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra počítačů

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

V předložené práci studujeme algoritmy,~které se zabývají detekcí anomálií (tzn. identifikací bodů, které se výrazně liší od ostatních). Zaměřujeme se na použití detektorů anomálií v objemných datech vytvořených z threat intelligence záznamů a logů událostí z bezpečnostních systémů na počítačových sítích. Hlavním cílem práce je navrhnout algoritmus, který rozezná anomálie v bezpečnostních datech, které mohou znamenat zvýšené riziko neoprávněného vniknutí, a poskytne varování, na jejichž základě tyto záznamy dále vyšetří bezpečnostní analytik. K tomu účelu transformujeme data do časových řad v rámci předzpracování dat a implementujeme vlastní algoritmus postavený na základě předpovědi a modelování časových řad. Algoritmus je rozšířením exponenciálního vyrovnávání parametrů. K detekci anomálií na výsledných residuích používáme regulační diagramy s pomocí Western Electric pravidel. Z důvodu vysokého množství časových řad po předzpracování dat také specifikujeme způsob paralelizace pro distribuovaný výpočet na počítačovém clusteru. Dále v diplomové práci zkoumáme funkčnost a přesnost řešení a znázorňujeme výsledky testování algoritmu na simulovaných i reálných threat intelligence datech.

In the thesis we study algorithms for detecting anomalies (identifying patterns in data that do not conform to expected behaviour). We focus on the application of anomaly detection in large sets of threat intelligence data and logged security events obtained from threat detection systems. The main objective of the thesis is to develop an algorithm that will identify outliers in the cyber-security data which may indicate a heightened risk of network intrusion or other malicious activity, and create alerts for network security analysts to investigate the unexpected behaviour further. To that end, we transform the given input data into time-series as part of the data preprocessing stage and implement a custom algorithm based on time-series modelling and forecasting. Our algorithm is an extension of the exponential smoothing algorithm and is called the sparse exponential smoothing model. To detect anomalies on the resulting residuals we use control charts and Western Electric rules. Due to the large amount of created time-series, a parallelisation approach is designed for a distributed data pipeline and used for processing big data. Further in the thesis, we evaluate the algorithm and illustrate the performance of the solution on simulated and real threat intelligence data sets.