Comparing Log File Representations for Anomaly Detection Methods
| dc.contributor.advisor | Drchal, Jan | |
| dc.contributor.author | Hubal, Martin | |
| dc.contributor.referee | Uhrín, Matej | |
| dc.date.accessioned | 2022-06-01T22:52:26Z | |
| dc.date.available | 2022-06-01T22:52:26Z | |
| dc.date.issued | 2022-06-01 | |
| dc.description.abstract | Tato bakalářská práce se zabývá metodami detekce anomálií nad logy. Porovnávají se dva modely - AECNN1D, který je založen na číselné reprezentaci dat typu fastText, a Vanilla autoencoder, který je založen na šablonách, kde se data reprezentují pomocí bag-of-words. U obou modelů porovnáváme jejich robustnost tím, že se v testovacích datech objevují i typy logů, na které model nebyl natrénován. Pro porovnání jsou použity HDFS datové soubory. Modely jsou trénovány na upravených HDFS datech, kde se určité logové typy odstraní či zakryjí. Závěr experimentů je ten, že model AECNN1D nebyl schopný dobře reagovat na nové typy logů, na kterých nebyl natrénován. To si vysvětlujeme malým počtem rozdílných typů logů v HDFS datech. | cs |
| dc.description.abstract | This bachelor's thesis deals with anomaly detection methods for log files. Two models are compared - AECNN1D, which is based on a numerical representation of the data with fastText embeddings, and the Vanilla autoencoder, which is based on templates, where the data is represented using bag-of-words. We compare the robustness of both of these models by including types in the test data on which the model was not trained. HDFS data files are used for comparison. The models are trained on modified HDFS data, where certain log types are removed or masked. The conclusion of the experiments is that the AECNN1D model was not able to perform well on the new log types on which it was not trained. This is explained by the small number of different log types in HDFS data. | en |
| dc.identifier | KOS-1062775445305 | |
| dc.identifier.uri | http://hdl.handle.net/10467/100943 | |
| dc.publisher | České vysoké učení technické v Praze | cs |
| dc.publisher | Czech Technical University in Prague | en |
| dc.rights | A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act. | en |
| dc.rights | Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění. | cs |
| dc.subject | detekce anomálií | cs |
| dc.subject | soubory logů | cs |
| dc.subject | NLP | cs |
| dc.subject | strojové učení | cs |
| dc.subject | anomaly detection | en |
| dc.subject | log files | en |
| dc.subject | NLP | en |
| dc.subject | machine learning | en |
| dc.title | Porovnání reprezentací souborů logů pro metody detekce anomálií | cs |
| dc.title | Comparing Log File Representations for Anomaly Detection Methods | en |
| dc.type | bachelor thesis | en |
| dspace.entity.type | Publication | |
| relation.isAdvisorOfPublication | 056b7990-7f9a-428c-8f8d-226aa0397f07 | |
| relation.isAdvisorOfPublication.latestForDiscovery | 056b7990-7f9a-428c-8f8d-226aa0397f07 | |
| relation.isAuthorOfPublication | bd51b398-dde8-4af3-b974-15c83efc02fd | |
| relation.isAuthorOfPublication.latestForDiscovery | bd51b398-dde8-4af3-b974-15c83efc02fd | |
| relation.isRefereeOfPublication | 15f97c3d-c1e7-4534-b041-9be335327c2c | |
| relation.isRefereeOfPublication.latestForDiscovery | 15f97c3d-c1e7-4534-b041-9be335327c2c | |
| theses.degree.grantor | katedra počítačů | cs |
| theses.degree.programme | Softwarové inženýrství a technologie | cs |
Files
Original bundle
1 - 4 of 4
- Name:
- F3-BP-2022-Hubal-Martin-Bakalarsk__prace____Martin_Hubal.pdf
- Size:
- 3.83 MB
- Format:
- Adobe Portable Document Format
- Description:
- PLNY_TEXT
- Name:
- F3-BP-2022-Hubal-Martin-priloha-bakalarska-prace-main.zip
- Size:
- 103.41 KB
- Format:
- Unknown data format
- Description:
- PRILOHA
- Name:
- F3-BP-2022-posudek-Uhrin_Matej.pdf
- Size:
- 145.57 KB
- Format:
- Adobe Portable Document Format
- Description:
- POSUDEK
- Name:
- F3-BP-2022-posudek-Drchal_Jan.pdf
- Size:
- 208.22 KB
- Format:
- Adobe Portable Document Format
- Description:
- POSUDEK