Porovnání reprezentací souborů logů pro metody detekce anomálií

Martin Hubal

Comparing Log File Representations for Anomaly Detection Methods

dc.contributor.advisor	Drchal Jan
dc.contributor.author	Martin Hubal
dc.date.accessioned	2022-06-01T22:52:26Z
dc.date.available	2022-06-01T22:52:26Z
dc.date.issued	2022-06-01
dc.identifier	KOS-1062775445305
dc.identifier.uri	http://hdl.handle.net/10467/100943
dc.description.abstract	Tato bakalářská práce se zabývá metodami detekce anomálií nad logy. Porovnávají se dva modely - AECNN1D, který je založen na číselné reprezentaci dat typu fastText, a Vanilla autoencoder, který je založen na šablonách, kde se data reprezentují pomocí bag-of-words. U obou modelů porovnáváme jejich robustnost tím, že se v testovacích datech objevují i typy logů, na které model nebyl natrénován. Pro porovnání jsou použity HDFS datové soubory. Modely jsou trénovány na upravených HDFS datech, kde se určité logové typy odstraní či zakryjí. Závěr experimentů je ten, že model AECNN1D nebyl schopný dobře reagovat na nové typy logů, na kterých nebyl natrénován. To si vysvětlujeme malým počtem rozdílných typů logů v HDFS datech.	cze
dc.description.abstract	This bachelor's thesis deals with anomaly detection methods for log files. Two models are compared - AECNN1D, which is based on a numerical representation of the data with fastText embeddings, and the Vanilla autoencoder, which is based on templates, where the data is represented using bag-of-words. We compare the robustness of both of these models by including types in the test data on which the model was not trained. HDFS data files are used for comparison. The models are trained on modified HDFS data, where certain log types are removed or masked. The conclusion of the experiments is that the AECNN1D model was not able to perform well on the new log types on which it was not trained. This is explained by the small number of different log types in HDFS data.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	detekce anomálií	cze
dc.subject	soubory logů	cze
dc.subject	NLP	cze
dc.subject	strojové učení	cze
dc.subject	anomaly detection	eng
dc.subject	log files	eng
dc.subject	NLP	eng
dc.subject	machine learning	eng
dc.title	Porovnání reprezentací souborů logů pro metody detekce anomálií	cze
dc.title	Comparing Log File Representations for Anomaly Detection Methods	eng
dc.type	bakalářská práce	cze
dc.type	bachelor thesis	eng
dc.contributor.referee	Uhrín Matej
theses.degree.grantor	katedra počítačů	cze
theses.degree.programme	Softwarové inženýrství a technologie	cze

Soubory tohoto záznamu

Název:: F3-BP-2022-Hubal-Martin-Bakala ...
Velikost:: 3.828Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F3-BP-2022-Hubal-Martin-priloh ...
Velikost:: 103.4Kb
Formát:: Neznámý
Popis:: PRILOHA
: Zobrazit/otevřít

Název:: F3-BP-2022-posudek-Uhrin_Matej.pdf
Velikost:: 145.5Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F3-BP-2022-posudek-Drchal_Jan.pdf
Velikost:: 208.2Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Bakalářské práce - 13136 [1123]

Zobrazit minimální záznam