Porovnání reprezentací souborů logů pro metody detekce anomálií
Comparing Log File Representations for Anomaly Detection Methods
dc.contributor.advisor | Drchal Jan | |
dc.contributor.author | Martin Hubal | |
dc.date.accessioned | 2022-06-01T22:52:26Z | |
dc.date.available | 2022-06-01T22:52:26Z | |
dc.date.issued | 2022-06-01 | |
dc.identifier | KOS-1062775445305 | |
dc.identifier.uri | http://hdl.handle.net/10467/100943 | |
dc.description.abstract | Tato bakalářská práce se zabývá metodami detekce anomálií nad logy. Porovnávají se dva modely - AECNN1D, který je založen na číselné reprezentaci dat typu fastText, a Vanilla autoencoder, který je založen na šablonách, kde se data reprezentují pomocí bag-of-words. U obou modelů porovnáváme jejich robustnost tím, že se v testovacích datech objevují i typy logů, na které model nebyl natrénován. Pro porovnání jsou použity HDFS datové soubory. Modely jsou trénovány na upravených HDFS datech, kde se určité logové typy odstraní či zakryjí. Závěr experimentů je ten, že model AECNN1D nebyl schopný dobře reagovat na nové typy logů, na kterých nebyl natrénován. To si vysvětlujeme malým počtem rozdílných typů logů v HDFS datech. | cze |
dc.description.abstract | This bachelor's thesis deals with anomaly detection methods for log files. Two models are compared - AECNN1D, which is based on a numerical representation of the data with fastText embeddings, and the Vanilla autoencoder, which is based on templates, where the data is represented using bag-of-words. We compare the robustness of both of these models by including types in the test data on which the model was not trained. HDFS data files are used for comparison. The models are trained on modified HDFS data, where certain log types are removed or masked. The conclusion of the experiments is that the AECNN1D model was not able to perform well on the new log types on which it was not trained. This is explained by the small number of different log types in HDFS data. | eng |
dc.publisher | České vysoké učení technické v Praze. Vypočetní a informační centrum. | cze |
dc.publisher | Czech Technical University in Prague. Computing and Information Centre. | eng |
dc.rights | A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html | eng |
dc.rights | Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html | cze |
dc.subject | detekce anomálií | cze |
dc.subject | soubory logů | cze |
dc.subject | NLP | cze |
dc.subject | strojové učení | cze |
dc.subject | anomaly detection | eng |
dc.subject | log files | eng |
dc.subject | NLP | eng |
dc.subject | machine learning | eng |
dc.title | Porovnání reprezentací souborů logů pro metody detekce anomálií | cze |
dc.title | Comparing Log File Representations for Anomaly Detection Methods | eng |
dc.type | bakalářská práce | cze |
dc.type | bachelor thesis | eng |
dc.contributor.referee | Uhrín Matej | |
theses.degree.grantor | katedra počítačů | cze |
theses.degree.programme | Softwarové inženýrství a technologie | cze |
Soubory tohoto záznamu
Tento záznam se objevuje v následujících kolekcích
-
Bakalářské práce - 13136 [1123]