Detekce anomálií z logů

Marek Souček

Log Anomaly Detection

Typ dokumentu

diplomová práce
master thesis

Autor

Marek Souček

Vedoucí práce

Drchal Jan

Oponent práce

Kordík Pavel

Studijní obor

Kybernetická bezpečnost

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra počítačů

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Tato diplomová práce se zabývá možností aplikovat nedávné pokroky v oblasti zpracování přirozeného jazyka (NLP) na problém detekce anomálií z logů. Konkrétně zkouší, zda lze použít fastText, jakož to pokročilou metodu NLP embeddingu, k reprezentaci logů, jejichž text neobsahuje přirozený jazyk, ale je to stále nestrukturovaná nebo jen částečně strukturovaná informace ve formě čitelného textu. Navrhnutá reprezentace logů je použita jako vstup pro detekci anomálií se supervizovanými i nesupervizovanými modely založenými na LSTM neuronových sítích. Výslendé modely byly vyhodnoceny a porovnány s dalšími metodami detekce anomálií na dvou veřejně dostupných datasetech. Supervizované modely dosáhly velmi dobrých výsledků a v pozovnání se umístili mezi nejepšími metodami.

This thesis explores possibilities of applying recent advancements in NLP domain to log anomaly detection. More specifically it tests whether fastText, as advanced NLP embedding approach, can be used to model logs, which do not contain typical natural language, but they are unstructured or semi-structured human readable text. Proposed log representation was used as input for supervised and unsupervised LSTM based anomaly detection models. These models were evaluated in multiple experiments and compared witch anomaly detection method on two publicly available datasets. Supervised approach showed some really good results and placed among the best methods in benchmark.