Modely rozhodovacích lesů a jejich využití v úloze neúplně anotovaných dat

Brabec Jan

Decision Forests in the Task of Semi-Supervised Learning

Type of document

diplomová práce
master thesis

Author

Brabec Jan

Supervisor

Machlica Lukáš

Opponent

Franc Vojtěch

Field of study

Počítačové vidění a digitální obraz

Study program

Otevřená informatika

Institutions assigning rank

katedra kybernetiky

Rights

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Show full item record

Abstract

Zabýváme se úlohou klasifikace s využitím náhodných lesů trénovaných jak na plně označených, tak i na částečně označených datech. Standardní přístupy k učení v přítomnosti neúplně označených dat nemohly být aplikovány na náš problém. Obvykle totiž předpokládají, že označená a neoznačená datová sada mají stejné pravděpodobnostní rozdělení. V našem případě většina objektů v neoznačené datové sadě patří do třídy, která se v označené datové sadě vůbec nevyskytuje. Tento problém se objevuje při klasifikaci síťového provozu, kde označená datová sada je tvořena objekty, které byly spojeny s některou z kategorií malwaru. Objekty v neoznačené datové sadě jsou většinou benigní (ne malware) provoz, ale také existují škodlivé objekty, které jsme nebyli schopni detekovat a správně označit. Implementujeme a analyzujeme několik druhů náhodných lesů. Jsou analyzovány na veřejně dostupných datových sadách, které byly upraveny, aby obsahovaly nevyvážená a neoznačená data, a také na naší síťové datové sadě, která je tvořena z proxy logů. Také jsme adaptovali a implementovali několik algoritmů, které mohou být použity společně s náhodnými lesy ve výše zmíněné úloze. Ukazujeme, že výrazně zvyšují kvalitu klasifikace na veřejně dostupných datových sadách.

We focus on the task of classification with random forests trained both on fully and on partially labeled data. Standard semi-supervised learning approaches cannot be applied on our problem because they usually assume that the unlabeled dataset is sampled from the same underlying distribution as the labeled dataset. In our case, the majority of objects in the unlabeled dataset belongs to a class that is not present in the labeled dataset at all. This problem has an application in network traffic classification, where the labeled dataset is made of objects that were associated with some category of malware and the objects in the unlabeled dataset are mostly benign (non-malware) traffic but there are also some malicious objects that we were unable to detect and label correctly. We implement and analyze several random forest types. They are analyzed both on publicly available datasets, that have been modified to contain imbalanced and unlabeled data, and also on our own network dataset that is composed from proxy logs. In addition, we adapt and implement several algorithms that can be used together with random forests in the above mentioned task and we show that they significantly improve the classification performance on public datasets.