Klasifikace komunikace uvnitř Tor spojení
Classification of the traffic content within Tor connection
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Lukáš Jančička
Vedoucí práce
Čejka Tomáš
Oponent práce
Hynek Karel
Studijní obor
Teoretická informatikaStudijní program
Informatika 2009Instituce přidělující hodnost
katedra teoretické informatikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Tato bakalářská práce se zabývá detekcí anonymizační sítě Tor a klasifikací jejího provozu pomocí metod strojového učení. Statistické vlastnosti síťového provozu získané z dat ve formě síťových toků jsou použity k trénování různých modelů supervizovaného učení. Model AdaBoost podával nejlepší výsledky jak v detekci Toru, tak v klasifikaci kategorie provozu sítě Tor. Strojové učení se ukazuje být vhodným přístupem pro detekci sítě Tor, neboť finální klasifikátor dokázal detekovat 94 % vzorků provozu sítě Tor a v těchto rozhodnutích byl přesný na 99 %, s F-skóre 96 %. Druhý klasifikátor rozlišuje mezi osmi kategoriemi provozu a vykazuje klasifikační přesnost 65 %. Výsledky ukazují, že některé informace o aktivitě uživatele lze zjistit i přes fakt, že síť Tor šifruje svůj síťový provoz. This thesis deals with the detection of the Tor anonymity network and the classification of its traffic using machine learning techniques. Statistical properties of network traffic extracted from the network flow data are used for training a variety of supervised learning models. AdaBoost model was the best performing for both the Tor detection and Tor traffic category classification. Machine learning offers a viable approach to detecting Tor traffic, as the final classifier detected 94 % of Tor samples and was 99 % precise in those decisions, with the F-score being 96 %. The second classifier distinguishes between eight traffic categories and does that with an accuracy of 65 %. The results demonstrate that even though Tor encrypts the traffic, some information about the user's activity can still be revealed.
Kolekce
- Bakalářské práce - 18101 [349]