Porovnání reprezentací souborů logů pro metody detekce anomálií
Comparing Log File Representations for Anomaly Detection Methods
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Martin Hubal
Vedoucí práce
Drchal Jan
Oponent práce
Uhrín Matej
Studijní program
Softwarové inženýrství a technologieInstituce přidělující hodnost
katedra počítačůPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Tato bakalářská práce se zabývá metodami detekce anomálií nad logy. Porovnávají se dva modely - AECNN1D, který je založen na číselné reprezentaci dat typu fastText, a Vanilla autoencoder, který je založen na šablonách, kde se data reprezentují pomocí bag-of-words. U obou modelů porovnáváme jejich robustnost tím, že se v testovacích datech objevují i typy logů, na které model nebyl natrénován. Pro porovnání jsou použity HDFS datové soubory. Modely jsou trénovány na upravených HDFS datech, kde se určité logové typy odstraní či zakryjí. Závěr experimentů je ten, že model AECNN1D nebyl schopný dobře reagovat na nové typy logů, na kterých nebyl natrénován. To si vysvětlujeme malým počtem rozdílných typů logů v HDFS datech. This bachelor's thesis deals with anomaly detection methods for log files. Two models are compared - AECNN1D, which is based on a numerical representation of the data with fastText embeddings, and the Vanilla autoencoder, which is based on templates, where the data is represented using bag-of-words. We compare the robustness of both of these models by including types in the test data on which the model was not trained. HDFS data files are used for comparison. The models are trained on modified HDFS data, where certain log types are removed or masked. The conclusion of the experiments is that the AECNN1D model was not able to perform well on the new log types on which it was not trained. This is explained by the small number of different log types in HDFS data.
Kolekce
- Bakalářské práce - 13136 [1124]