Zobrazit minimální záznam

Contextual Embeddings for Anomaly Detection in Log Files



dc.contributor.advisorDrchal Jan
dc.contributor.authorProkop Černý
dc.date.accessioned2021-06-15T22:52:23Z
dc.date.available2021-06-15T22:52:23Z
dc.date.issued2021-06-15
dc.identifierKOS-1064879658305
dc.identifier.urihttp://hdl.handle.net/10467/95324
dc.description.abstractDetekce anomálií v datech logů z velkých počítačových systémů je v posledních letech oblastí rostoucího významu. Logy jakožto textová data musí být nejdříve převedeny (embedovány) na jejich vektorové reprezentace (embeddingy) aby bylo možné provádět detekci anomálií. Tato práce zkoumá použití moderních metod zpracování přirozeného jazyka (NLP) pro vytváření kontextových reprezentací z logů. Konkrétně jsme použili hluboké neuronové sítě BERT, jako základ našich enkodérů vět. Naše enkodéry byly trénovány bez učitele pomocí úlohy ICT na veřejně dostupných neanotovaných log datasetech. Kvalitu reprezentací z našich enkodérů jsme ověřili provedením experimentů na detekci anomálií v anotovaném log datasetu HDFS1, za použití AETCN detektoru anomálií. Pro získání výchozího bodu kvality detekce anomálií jsme použili reprezentace vytvořené metodou fastText. Naše kontextové reprezentace nebyly schopné dosáhnout stejné kvality detekce anomálií jako základní fastText reprezentace, ale i tak výsledky vypadají nadějně, jelikož použitý dataset pro detekci anomálií nemusí být dostatečně komplexní pro využití potenciálu nabízeného kontextovými reprezentacemi. Toto nemohlo být ověřeno kvůli nedostatku veřejně dostupných komplexních anotovaných log datasetů.cze
dc.description.abstractAnomaly Detection in log data from large computer systems is an area of growing importance over the past few years. As logs are text data, they first must be embedded into vector spaces for performing Anomaly Detection. This thesis explores the use of current state-of-the-art NLP methods for contextual embedding of log-lines into vectors. Specifically, we have used BERT models, which are Deep Neural Networks, as the base component for our Sentence Encoders. We have used the Inverse Cloze Task for unsupervised Sentence Encoder training on unlabeled publicly available log datasets. The quality of log-line embeddings produced by our encoders was evaluated by performing Anomaly Detection experiments on the labeled HDFS1 log dataset, using the Auto Encoder Temporal Convolutional Network anomaly detection method. We have used fastText embeddings for obtaining the baseline anomaly detection performance. Our contextual embeddings have not been able to match the quality of the baseline fastText embeddings. Still, they show promise, as the used anomaly detection dataset may not be complex enough to reap the benefits of contextual embedding, but this has not been verified due to the lack of publicly available complex labeled log datasets.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectvektorové reprezentacecze
dc.subjectlogycze
dc.subjectdetekce anomáliícze
dc.subjectNLPcze
dc.subjectBERTcze
dc.subjectvector embeddingeng
dc.subjectlogseng
dc.subjectanomaly detectioneng
dc.subjectNLPeng
dc.subjectBERTeng
dc.titleKontextové reprezentace pro detekci anomálií v souborech logůcze
dc.titleContextual Embeddings for Anomaly Detection in Log Fileseng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.contributor.refereeKordík Pavel
theses.degree.disciplineDatové vědycze
theses.degree.grantorkatedra počítačůcze
theses.degree.programmeOtevřená informatikacze


Soubory tohoto záznamu





Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam