Kontextové reprezentace pro detekci anomálií v souborech logů

Prokop Černý

Contextual Embeddings for Anomaly Detection in Log Files

Typ dokumentu

diplomová práce
master thesis

Autor

Prokop Černý

Vedoucí práce

Drchal Jan

Oponent práce

Kordík Pavel

Studijní obor

Datové vědy

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra počítačů

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Detekce anomálií v datech logů z velkých počítačových systémů je v posledních letech oblastí rostoucího významu. Logy jakožto textová data musí být nejdříve převedeny (embedovány) na jejich vektorové reprezentace (embeddingy) aby bylo možné provádět detekci anomálií. Tato práce zkoumá použití moderních metod zpracování přirozeného jazyka (NLP) pro vytváření kontextových reprezentací z logů. Konkrétně jsme použili hluboké neuronové sítě BERT, jako základ našich enkodérů vět. Naše enkodéry byly trénovány bez učitele pomocí úlohy ICT na veřejně dostupných neanotovaných log datasetech. Kvalitu reprezentací z našich enkodérů jsme ověřili provedením experimentů na detekci anomálií v anotovaném log datasetu HDFS1, za použití AETCN detektoru anomálií. Pro získání výchozího bodu kvality detekce anomálií jsme použili reprezentace vytvořené metodou fastText. Naše kontextové reprezentace nebyly schopné dosáhnout stejné kvality detekce anomálií jako základní fastText reprezentace, ale i tak výsledky vypadají nadějně, jelikož použitý dataset pro detekci anomálií nemusí být dostatečně komplexní pro využití potenciálu nabízeného kontextovými reprezentacemi. Toto nemohlo být ověřeno kvůli nedostatku veřejně dostupných komplexních anotovaných log datasetů.

Anomaly Detection in log data from large computer systems is an area of growing importance over the past few years. As logs are text data, they first must be embedded into vector spaces for performing Anomaly Detection. This thesis explores the use of current state-of-the-art NLP methods for contextual embedding of log-lines into vectors. Specifically, we have used BERT models, which are Deep Neural Networks, as the base component for our Sentence Encoders. We have used the Inverse Cloze Task for unsupervised Sentence Encoder training on unlabeled publicly available log datasets. The quality of log-line embeddings produced by our encoders was evaluated by performing Anomaly Detection experiments on the labeled HDFS1 log dataset, using the Auto Encoder Temporal Convolutional Network anomaly detection method. We have used fastText embeddings for obtaining the baseline anomaly detection performance. Our contextual embeddings have not been able to match the quality of the baseline fastText embeddings. Still, they show promise, as the used anomaly detection dataset may not be complex enough to reap the benefits of contextual embedding, but this has not been verified due to the lack of publicly available complex labeled log datasets.