Nástroj pro statistické zkoumání velkých toků dat
Tool for big data statistical analysis
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Vecherskaya Aleksandra
Vedoucí práce
Virius Miroslav
Oponent práce
Kukal Jaromír
Studijní obor
Aplikovaná informatikaStudijní program
Aplikace přírodních vědInstituce přidělující hodnost
katedra matematikyObhájeno
2016-09-01Práva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Metadata
Zobrazit celý záznamAbstrakt
Tato bakalářská práce představuje nástroj pro částečně řízenou analýzu DNS dat ze síťového provozu. Navrhovaná metoda zkoumá data na úrovni jednotlivých uživatelů a skládá se ze dvou částí: přípravy dat a modelování dat. Pro přípravu dat se zavádí nový způsob měření aktivity uživatelů, to jest normalizovaná entropie. Chování uživatelů v síti je reprezentováno časovou řadou hodnot entropie. Zmíněné časové řady jsou rozdělené do clusterů s využitím DTW jako měřítka podobnosti za účelem získání labelů pro řízené učení neuronové sítě. Modelovací část obsahuje obousměrnou LSTM neuronovou síť, která je trénovaná na behaviorálních řadách. Trénovaná neuronová síť je schopná rozpoznávat vzorce aktivity uživatelů v provozu v sítě ve skutečném čase. This thesis presents a tool for semi-supervised statistical analysis of the DNS network traffic data. The proposed method examines the traffic on the host level and consists of the data preparation part and the modelling part. For the data preparation we introduce a new way of measuring the host activity, i.e. normalised entropy. Host behaviour in the network is represented as temporal sequence of entropy values. The temporal sequences of DNS packets are clustered with the DTW as a similarity measure in order to obtain class labels for a supervised training of the neural network. The modelling part consists of the bidirectional LSTM neural network which is trained on behavioural sequences. After the training, the neural network is able to recognise patterns of the host activity in real-time mode.
Kolekce
- Bakalářské práce - 14101 [278]