Klasifikace komunikace uvnitř Tor spojení

Lukáš Jančička

Classification of the traffic content within Tor connection

Typ dokumentu

bakalářská práce
bachelor thesis

Autor

Lukáš Jančička

Vedoucí práce

Čejka Tomáš

Oponent práce

Hynek Karel

Studijní obor

Teoretická informatika

Studijní program

Informatika 2009

Instituce přidělující hodnost

katedra teoretické informatiky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Tato bakalářská práce se zabývá detekcí anonymizační sítě Tor a klasifikací jejího provozu pomocí metod strojového učení. Statistické vlastnosti síťového provozu získané z dat ve formě síťových toků jsou použity k trénování různých modelů supervizovaného učení. Model AdaBoost podával nejlepší výsledky jak v detekci Toru, tak v klasifikaci kategorie provozu sítě Tor. Strojové učení se ukazuje být vhodným přístupem pro detekci sítě Tor, neboť finální klasifikátor dokázal detekovat 94 &amp;amp;#37; vzorků provozu sítě Tor a v těchto rozhodnutích byl přesný na 99 &amp;amp;#37;, s F-skóre 96 &amp;amp;#37;. Druhý klasifikátor rozlišuje mezi osmi kategoriemi provozu a vykazuje klasifikační přesnost 65 &amp;amp;#37;. Výsledky ukazují, že některé informace o aktivitě uživatele lze zjistit i přes fakt, že síť Tor šifruje svůj síťový provoz.

This thesis deals with the detection of the Tor anonymity network and the classification of its traffic using machine learning techniques. Statistical properties of network traffic extracted from the network flow data are used for training a variety of supervised learning models. AdaBoost model was the best performing for both the Tor detection and Tor traffic category classification. Machine learning offers a viable approach to detecting Tor traffic, as the final classifier detected 94 &amp;amp;#37; of Tor samples and was 99 &amp;amp;#37; precise in those decisions, with the F-score being 96 &amp;amp;#37;. The second classifier distinguishes between eight traffic categories and does that with an accuracy of 65 &amp;amp;#37;. The results demonstrate that even though Tor encrypts the traffic, some information about the user's activity can still be revealed.