Hierarchické hustotné shlukování a interpretace síťových měření
Heirarchical density-based clustering and interpretation of network measurements
Type of document
disertační prácedoctoral thesis
Author
Pavol Mulinka
Supervisor
Kencl Lukáš
Opponent
Moucha Alexandru
Field of study
Telekomunikační technikaStudy program
Elektrotechnika a informatikaInstitutions assigning rank
katedra telekomunikační technikyRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Automatická detekce a interpretace anomálií síťového provozu s pomocí strojového učení je známý problém, pro který však není známé žádné všeobecné řešení. Řešení využívající strojové učení s učitelem jsou často používána, když existuje jasná představa o provozních vzorech, které mají být detekovány, zatímco detekce anomálií je preferovaným řešením, známe-li pouze normální chování monitorovaného systému. Oba přístupy vyžadují předchozí znalosti o sledovaném systému, buď o jeho normálních provozních profilech nebo o specifických vzorech anomálií, což efektivně znemožňuje jejich využití pro detekci a interpretaci neznámých provozních vzorů. V této práci představujeme Hi-Clust, automatický a univerzálně použitelný způsobanalýzy síťového provozu založený na hierarchickém klastrování, který dokáže detekovat a charakterizovat anomálie pomocí tzv. ``black-box'' přístupu, tedy bez nutnosti spoléhat se na jakékoli pravdivostní hodnoty trénovacích vzorků. Hi-Clust řeší kombinovanou detekci a interpretaci anomálií ve vícerozměrných síťových datech pomocí strojového učení bez učitele a při detekci a interpretaci vzorů se spoléhá na metody hierarchického klastrování. Hi-Clust lze použít na analýzu jakéhokoliv druhu vnořených nebo hierarchicky strukturovaných vícerozměrných dat. Aplikaci navrženého přístupu demonstrujeme na dvou odlišných klasifikačních scénářích: (i) tranzitní Internetový provozu a (ii) aktivní měřeních latence Cloudu. Pro oba případy popisujeme postup aplikace, porovnáváme různé metody automatické identifikace měření popisujících zjištěné události a navrhujeme metody extrakce prvků a jejich vhodných sad.. Hlavní výhodou Hi-Clustu je jeho schopnost objevit zcela nové vzory v datech. Tu prakticky demonstrujeme na využití Hi-Clust přístupu, založeného na strukturované interpretaci vzorů, pro klasifikaci síťového provozu. Také, i když nepřímo, ukazujeme jak Hi-Clust nalézá zcela nové vzory v porovnání se standartními metodami založenými na anotaci datasetů. Automatic detection and interpretation of network traffic anomalies through machine learning is a well-known problem, for which no general solution is available. Supervised learning solutions are often employed when there is a clear idea of the traffic patterns to be detected, whereas anomaly detection (i.e., detection of outliers) is the preferred solution when only the normal behaviour of the monitored system is known. Both approaches require prior knowledge about the monitored system, either the normal operation profiles or the specific anomalies patterns. As a consequence, both approaches have clear limitations when it comes to detecting, and interpreting unknown events. In this work we present Hi-Clust, an universally applicable hierarchical densitybased clustering approach for unsupervised network traffic analysis, which can both detect and characterize anomalous behaviours in a completely black-box manner, without relying on any ground-truth. Hi-Clust tackles the combined detection and interpretation of anomalies in multi-dimensional network data as an unsupervised machine learning task, relying on hierarchical clustering techniques for pattern discovery and interpretation. Hi-Clust can be applied to the unsupervised analysis of any kind of nested or hierarchically structured multi-dimensional data. We apply this approach to two distinct classification scenarios: (i) transit Internet traffic and (ii) active Cloud latency measurements. We describe the application procedure in both scenarios, benchmarking different methods for automatic identification of relevant features describing the detected events and propose methods of feature extraction and their suitable sets in both scenarios. The main contribution of Hi-Clust is its ability to discover novel data patterns. Consequently, we demonstrate Hi-Clust’s capability to carry out network traffic classification by interpretation of patterns with a structural approach. We also indirectly show how Hi-Clust discovers additional anomalies in comparison to traditional methods of labeling datasets.
Collections
- Disertační práce - 13000 [720]