Comparing Log File Representations for Anomaly Detection Methods

dc.contributor.advisor Drchal, Jan
dc.contributor.author Hubal, Martin
dc.contributor.referee Uhrín, Matej
dc.date.accessioned 2022-06-01T22:52:26Z
dc.date.available 2022-06-01T22:52:26Z
dc.date.issued 2022-06-01
dc.description.abstract Tato bakalářská práce se zabývá metodami detekce anomálií nad logy. Porovnávají se dva modely - AECNN1D, který je založen na číselné reprezentaci dat typu fastText, a Vanilla autoencoder, který je založen na šablonách, kde se data reprezentují pomocí bag-of-words. U obou modelů porovnáváme jejich robustnost tím, že se v testovacích datech objevují i typy logů, na které model nebyl natrénován. Pro porovnání jsou použity HDFS datové soubory. Modely jsou trénovány na upravených HDFS datech, kde se určité logové typy odstraní či zakryjí. Závěr experimentů je ten, že model AECNN1D nebyl schopný dobře reagovat na nové typy logů, na kterých nebyl natrénován. To si vysvětlujeme malým počtem rozdílných typů logů v HDFS datech. cs
dc.description.abstract This bachelor's thesis deals with anomaly detection methods for log files. Two models are compared - AECNN1D, which is based on a numerical representation of the data with fastText embeddings, and the Vanilla autoencoder, which is based on templates, where the data is represented using bag-of-words. We compare the robustness of both of these models by including types in the test data on which the model was not trained. HDFS data files are used for comparison. The models are trained on modified HDFS data, where certain log types are removed or masked. The conclusion of the experiments is that the AECNN1D model was not able to perform well on the new log types on which it was not trained. This is explained by the small number of different log types in HDFS data. en
dc.identifier KOS-1062775445305
dc.identifier.uri http://hdl.handle.net/10467/100943
dc.publisher České vysoké učení technické v Praze cs
dc.publisher Czech Technical University in Prague en
dc.rights A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act. en
dc.rights Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění. cs
dc.subject detekce anomálií cs
dc.subject soubory logů cs
dc.subject NLP cs
dc.subject strojové učení cs
dc.subject anomaly detection en
dc.subject log files en
dc.subject NLP en
dc.subject machine learning en
dc.title Porovnání reprezentací souborů logů pro metody detekce anomálií cs
dc.title Comparing Log File Representations for Anomaly Detection Methods en
dc.type bachelor thesis en
dspace.entity.type Publication
relation.isAdvisorOfPublication 056b7990-7f9a-428c-8f8d-226aa0397f07
relation.isAdvisorOfPublication.latestForDiscovery 056b7990-7f9a-428c-8f8d-226aa0397f07
relation.isAuthorOfPublication bd51b398-dde8-4af3-b974-15c83efc02fd
relation.isAuthorOfPublication.latestForDiscovery bd51b398-dde8-4af3-b974-15c83efc02fd
relation.isRefereeOfPublication 15f97c3d-c1e7-4534-b041-9be335327c2c
relation.isRefereeOfPublication.latestForDiscovery 15f97c3d-c1e7-4534-b041-9be335327c2c
theses.degree.grantor katedra počítačů cs
theses.degree.programme Softwarové inženýrství a technologie cs

Files

Original bundle

Now showing 1 - 4 of 4
Name:
F3-BP-2022-Hubal-Martin-Bakalarsk__prace____Martin_Hubal.pdf
Size:
3.83 MB
Format:
Adobe Portable Document Format
Description:
PLNY_TEXT
Name:
F3-BP-2022-Hubal-Martin-priloha-bakalarska-prace-main.zip
Size:
103.41 KB
Format:
Unknown data format
Description:
PRILOHA
Name:
F3-BP-2022-posudek-Uhrin_Matej.pdf
Size:
145.57 KB
Format:
Adobe Portable Document Format
Description:
POSUDEK
Name:
F3-BP-2022-posudek-Drchal_Jan.pdf
Size:
208.22 KB
Format:
Adobe Portable Document Format
Description:
POSUDEK