Zobrazit minimální záznam

Comparing Log File Representations for Anomaly Detection Methods



dc.contributor.advisorDrchal Jan
dc.contributor.authorMartin Hubal
dc.date.accessioned2022-06-01T22:52:26Z
dc.date.available2022-06-01T22:52:26Z
dc.date.issued2022-06-01
dc.identifierKOS-1062775445305
dc.identifier.urihttp://hdl.handle.net/10467/100943
dc.description.abstractTato bakalářská práce se zabývá metodami detekce anomálií nad logy. Porovnávají se dva modely - AECNN1D, který je založen na číselné reprezentaci dat typu fastText, a Vanilla autoencoder, který je založen na šablonách, kde se data reprezentují pomocí bag-of-words. U obou modelů porovnáváme jejich robustnost tím, že se v testovacích datech objevují i typy logů, na které model nebyl natrénován. Pro porovnání jsou použity HDFS datové soubory. Modely jsou trénovány na upravených HDFS datech, kde se určité logové typy odstraní či zakryjí. Závěr experimentů je ten, že model AECNN1D nebyl schopný dobře reagovat na nové typy logů, na kterých nebyl natrénován. To si vysvětlujeme malým počtem rozdílných typů logů v HDFS datech.cze
dc.description.abstractThis bachelor's thesis deals with anomaly detection methods for log files. Two models are compared - AECNN1D, which is based on a numerical representation of the data with fastText embeddings, and the Vanilla autoencoder, which is based on templates, where the data is represented using bag-of-words. We compare the robustness of both of these models by including types in the test data on which the model was not trained. HDFS data files are used for comparison. The models are trained on modified HDFS data, where certain log types are removed or masked. The conclusion of the experiments is that the AECNN1D model was not able to perform well on the new log types on which it was not trained. This is explained by the small number of different log types in HDFS data.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectdetekce anomáliícze
dc.subjectsoubory logůcze
dc.subjectNLPcze
dc.subjectstrojové učenícze
dc.subjectanomaly detectioneng
dc.subjectlog fileseng
dc.subjectNLPeng
dc.subjectmachine learningeng
dc.titlePorovnání reprezentací souborů logů pro metody detekce anomáliícze
dc.titleComparing Log File Representations for Anomaly Detection Methodseng
dc.typebakalářská prácecze
dc.typebachelor thesiseng
dc.contributor.refereeUhrín Matej
theses.degree.grantorkatedra počítačůcze
theses.degree.programmeSoftwarové inženýrství a technologiecze


Soubory tohoto záznamu





Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam