Show simple item record

Anomaly Detection Methods for Log Files



dc.contributor.advisorDrchal Jan
dc.contributor.authorMartin Koryťák
dc.date.accessioned2021-06-15T22:51:59Z
dc.date.available2021-06-15T22:51:59Z
dc.date.issued2021-06-15
dc.identifierKOS-960815784705
dc.identifier.urihttp://hdl.handle.net/10467/95290
dc.description.abstractTato práce se věnuje metodám detekce anomálií aplikovaným na soubory logů. Současné metody detekce anomálií obvykle používají tradiční přístup ke zpracování logů. Nejprve se soubory logů zpracují jejich parsováním, které transformuje textové informace na nespecifická strukturovaná data. Poté jsou data převedena na číselnou reprezentaci. Extrakce příznaků často souvisí s technikami používanými pro zpracování přirozeného jazyka. Tradiční přístup však vyžaduje rozsáhlé oborové znalosti a přeučení modelu, když se objeví nové typy logů. Díky nedávným pokrokům v oblasti zpracování přirozeného jazyka můžeme přímo naučit vnoření slov namísto extrakce příznaků založené na parsování logů. Navrhujeme nové modely založené na autoenkodérech využívajících vnoření slov, protože jsou doporučovanou volbou v oblasti detekce anomálií. Kromě toho experimentujeme s různými technikami, které jsme začlenili do autoenkodérů, jako jsou konvoluční vrstvy a mechanismus self-attention. Ověřujeme, že autoenkodéry využívající konvoluční vrstvy jsou vhodné pro detekci anomálií v souborech logů. Dále ukazujeme, že přidání mechanismu self-attention do modelů může být výhodné a otevírá prostor pro budoucí práci a další výzkum. Závěrem můžeme konstatovat, že tradiční přístup v kombinaci s autoenkodérem může na poskytnuté testovací datové sadě dosáhnout působivých výsledků. Nicméně model AECNN1D dosahuje nejslibnějších výsledků mezi všemi modely, které využívají vnoření slov logů - metrika F1-score je 0,8597 na testovací datové sadě. Model AECNN1D je obecně použitelný pro nasazení do produkce, protože nemá žádné další požadavky ani nevyžaduje občasné přeučování.cze
dc.description.abstractThis thesis is dedicated to methods of anomaly detection applied to log files. The current state-of-the-art anomaly detection methods usually follow the traditional approach for log processing. Firstly, log files are processed by a log parsing technique which transforms text information into non-specific structured data. Next, the data is converted into a numerical representation. The feature extraction is often related to natural language processing techniques. However, the traditional approach requires extensive domain knowledge and retraining a particular model when new log messages become available. Thanks to the recent advancements in the natural language processing domain, we can directly learn embedding vectors instead of the feature extraction based on log parsing. We propose novel autoencoder-based models leveraging the embedding vectors since autoencoders are a recommended choice in the field of anomaly detection. Moreover, we experiment with various techniques which are incorporated into autoencoders, such as convolutional layers and the self-attention mechanism. We verify that the autoencoders utilizing convolutional layers are effective for anomaly detection in log files. Furthermore, we demonstrate that boosting the models with the self-attention mechanism might be advantageous and open room for future work and further research. Finally, we can conclude that the traditional approach combined with an autoencoder may achieve impressive results on the provided testing data set. Nonetheless, the AECNN1D model achieves the most promising results among models leveraging the embedding representation of logs - the F1-score is 0.8597 on the testing data set. The AECNN1D model is generally applicable to deploying into the production since no additional requirements or periodic retraining is necessary.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectdetekce anomáliícze
dc.subjectzpracování přirozeného jazykacze
dc.subjectsoubory logůcze
dc.subjectautoenkodércze
dc.subjectkonvoluční neuronová síťcze
dc.subjectstrojové učenícze
dc.subjectanomaly detectioneng
dc.subjectnatural language processingeng
dc.subjectlog fileseng
dc.subjectautoencodereng
dc.subjectconvolutional neural networkeng
dc.subjectmachine learningeng
dc.titleMetody detekce anomálií pro soubory logůcze
dc.titleAnomaly Detection Methods for Log Fileseng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.contributor.refereeŠír Gustav
theses.degree.disciplineDatové vědycze
theses.degree.grantorkatedra počítačůcze
theses.degree.programmeOtevřená informatikacze


Files in this item





This item appears in the following Collection(s)

Show simple item record