Metody detekce anomálií pro soubory logů

Martin Koryťák

Anomaly Detection Methods for Log Files

dc.contributor.advisor	Drchal Jan
dc.contributor.author	Martin Koryťák
dc.date.accessioned	2021-06-15T22:51:59Z
dc.date.available	2021-06-15T22:51:59Z
dc.date.issued	2021-06-15
dc.identifier	KOS-960815784705
dc.identifier.uri	http://hdl.handle.net/10467/95290
dc.description.abstract	Tato práce se věnuje metodám detekce anomálií aplikovaným na soubory logů. Současné metody detekce anomálií obvykle používají tradiční přístup ke zpracování logů. Nejprve se soubory logů zpracují jejich parsováním, které transformuje textové informace na nespecifická strukturovaná data. Poté jsou data převedena na číselnou reprezentaci. Extrakce příznaků často souvisí s technikami používanými pro zpracování přirozeného jazyka. Tradiční přístup však vyžaduje rozsáhlé oborové znalosti a přeučení modelu, když se objeví nové typy logů. Díky nedávným pokrokům v oblasti zpracování přirozeného jazyka můžeme přímo naučit vnoření slov namísto extrakce příznaků založené na parsování logů. Navrhujeme nové modely založené na autoenkodérech využívajících vnoření slov, protože jsou doporučovanou volbou v oblasti detekce anomálií. Kromě toho experimentujeme s různými technikami, které jsme začlenili do autoenkodérů, jako jsou konvoluční vrstvy a mechanismus self-attention. Ověřujeme, že autoenkodéry využívající konvoluční vrstvy jsou vhodné pro detekci anomálií v souborech logů. Dále ukazujeme, že přidání mechanismu self-attention do modelů může být výhodné a otevírá prostor pro budoucí práci a další výzkum. Závěrem můžeme konstatovat, že tradiční přístup v kombinaci s autoenkodérem může na poskytnuté testovací datové sadě dosáhnout působivých výsledků. Nicméně model AECNN1D dosahuje nejslibnějších výsledků mezi všemi modely, které využívají vnoření slov logů - metrika F1-score je 0,8597 na testovací datové sadě. Model AECNN1D je obecně použitelný pro nasazení do produkce, protože nemá žádné další požadavky ani nevyžaduje občasné přeučování.	cze
dc.description.abstract	This thesis is dedicated to methods of anomaly detection applied to log files. The current state-of-the-art anomaly detection methods usually follow the traditional approach for log processing. Firstly, log files are processed by a log parsing technique which transforms text information into non-specific structured data. Next, the data is converted into a numerical representation. The feature extraction is often related to natural language processing techniques. However, the traditional approach requires extensive domain knowledge and retraining a particular model when new log messages become available. Thanks to the recent advancements in the natural language processing domain, we can directly learn embedding vectors instead of the feature extraction based on log parsing. We propose novel autoencoder-based models leveraging the embedding vectors since autoencoders are a recommended choice in the field of anomaly detection. Moreover, we experiment with various techniques which are incorporated into autoencoders, such as convolutional layers and the self-attention mechanism. We verify that the autoencoders utilizing convolutional layers are effective for anomaly detection in log files. Furthermore, we demonstrate that boosting the models with the self-attention mechanism might be advantageous and open room for future work and further research. Finally, we can conclude that the traditional approach combined with an autoencoder may achieve impressive results on the provided testing data set. Nonetheless, the AECNN1D model achieves the most promising results among models leveraging the embedding representation of logs - the F1-score is 0.8597 on the testing data set. The AECNN1D model is generally applicable to deploying into the production since no additional requirements or periodic retraining is necessary.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	detekce anomálií	cze
dc.subject	zpracování přirozeného jazyka	cze
dc.subject	soubory logů	cze
dc.subject	autoenkodér	cze
dc.subject	konvoluční neuronová síť	cze
dc.subject	strojové učení	cze
dc.subject	anomaly detection	eng
dc.subject	natural language processing	eng
dc.subject	log files	eng
dc.subject	autoencoder	eng
dc.subject	convolutional neural network	eng
dc.subject	machine learning	eng
dc.title	Metody detekce anomálií pro soubory logů	cze
dc.title	Anomaly Detection Methods for Log Files	eng
dc.type	diplomová práce	cze
dc.type	master thesis	eng
dc.contributor.referee	Šír Gustav
theses.degree.discipline	Datové vědy	cze
theses.degree.grantor	katedra počítačů	cze
theses.degree.programme	Otevřená informatika	cze

Soubory tohoto záznamu

Název:: F3-DP-2021-Korytak-Martin-Anom ...
Velikost:: 1.166Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F3-DP-2021-Korytak-Martin-pril ...
Velikost:: 297.9Kb
Formát:: Neznámý
Popis:: PRILOHA
: Zobrazit/otevřít

Název:: F3-DP-2021-posudek-Sir_Gustav.pdf
Velikost:: 929.2Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F3-DP-2021-posudek-Drchal_Jan.pdf
Velikost:: 209.7Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Diplomové práce - 13136 [833]

Zobrazit minimální záznam