Identifikace uživatelů na síti na základě jejich chování

Kubeša David

Identification of network users by profiling their behavior

Typ dokumentu

diplomová práce
master thesis

Autor

Kubeša David

Vedoucí práce

García Sebastián

Oponent práce

Catania Carlos

Studijní obor

Umělá inteligence

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra počítačů

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Přesná identifikace uživatelů na síti v různém časových úsecích se řadí mezi známé těžké problémy. Identifikace uživatelů na základě jejich akcí a ne jejich IP adress umožnuje administrátorům síťí aplikovat sofistikovanější pravidla pro kontrolu uživatelů. Tento přístup také umožnuje identifikaci nežádoucích uživatelů, co se vydávají za jiné, např. kvůli nákaze malwarem. Analýza uživatelských akcí vyvolává morální otázky, protože umožnuje identifikaci uživatelů v rozdílných sítích. Tato práce se snaží zachytit vzorce chování uživatele do uživatelských profilů. Tyto profily jsou závislé na čase a jsou vytvořené z velkého množství příznaků. Za použití záznamu sítě od známých uživatelů v našem datasetu bylo možné tyto profily vytvořit a uložit. Tyto profily byly vytvořené na základě NetFlows ze sítě. Obsah packetů proto není pro profilování použit. Používání pouze NetFlows dělá tento výzkum těžší. Porovnáváme nejdříve dvojce profilů a po té až uživatele jelikož hlavní porovnávací model pro porovnání uživatelů je založen na provnání těchto uživatelských profilů. Naše experimenty probíhali na datasetu 19 prověřených uživatelů, což je jeden z největších datasetů tohodle typu. Naše výsledky ukázaly, že jsme schopni identifikovat uživatele s 60% správností a s 90% přesností. Jak moc dobře naše metoda funguje záleží hlavně na tom, jak moc dobře dokážeme porovnat dva uživatelské profily. Malé zlepšení v tomto porovnání vede následně k lepší identifikaci uživatelů.

The precise identification of users in the network at different moments in time is a well known and difficult problem. Identifying users by their actions (and not their IP addresses) allows administrators to apply policy controls on users, to find intruders that are impersonating legitimate users, and to find anomalous user behaviors that could be due to malware infections. More importantly, the behavioral analysis of users actions raises important moral questions about the power to identify users in unknown networks. This thesis explores this question by trying to identify users by converting the user's behavior into user's profiles. These profiles are time-dependent and they have dozen of features. By using the traffic of known past users in our dataset, it was possible to create and store their behavioral profiles. The profiles were created by extracting features from NetFlow data, and therefore no payload was used. The decision to only use NetFlows made this research much more challenging since there were less data. After studying the behaviors, we designed a comparison model that it is a similarity metric between users profiles. The profiles are compared one-to-one and also in sequential groups. The comparison of groups of profiles is the base for the user to user classifier. These methods were verified on experiments that used one of the largest labeled datasets currently available in the area, consisting in more than one month of real traffic from 19 known and verified normal users. All our tools were published online, including the tools to visualize and compare users. Results show that we can identify our users with 60% of accuracy and 90% precision. The success of this method mostly depends on how well we can compare two user profiles. A small improvement can lead to improvement in user detection.