Klasifikace částečně anotovaných dat do více tříd za pomoci rozhodovacích lesů

Oharek Martin

Decision forests and multi-class classification of partially labeled data

Typ dokumentu

bakalářská práce
bachelor thesis

Autor

Oharek Martin

Vedoucí práce

Machlica Lukáš

Oponent práce

Kopp Martin

Studijní obor

Matematické inženýrství

Studijní program

Aplikace přírodních věd

Instituce přidělující hodnost

katedra matematiky

Obhájeno

2018-09-04

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Tato práce se zabývá klasifikací částečně anotovaných a nevyvážených dat. Typickým příkladem částečně anotovaných dat jsou údaje z proxy-logů charakterizující síťový provoz. Je vyvíjena snaha klasifikovat tyto údaje a rozlišovat mezi neoznačeným legitimním provozem (negativní) a označeným nelegitimním (malware) provozem (pozitivní). Případů legitimního provozu je více než nelegitimního a vzniká nevyváženost, která způsobuje problémy při klasifikaci. K účelu klasifikace jsme využívali náhodné rozhodovací lesy. V práci jsme trénovali rozhodovací les a testovali kvalitu výsledků klasifikace na datech z proxy-logů poskytnutých společností Cisco Systems, s.r.o. Byly navrhnuty a testovány další metody a algoritmy vedoucí k zlepšení kvality klasifikace. Výsledky zveřejněné na konci práce ukazují, že testované metody výrazně napomáhají ke zlepšení klasifikace.

This thesis focuses on the task of classification of partially labeled and imbalanced data. Typical instances of partially labeled data are details extracted from proxy-logs. Such data contain information about network traffic (network flow). The data from network traffic were provided by Cisco Systems, Inc. and they divide into labeled malicious objects (positive) and unlabeled legitimate operation (negative). Generally, such dataset includes much more negative instances than positive instances and it leads to imbalance and causes problems in the task of classification. In order to classify these data the random decision forest was applied. The data were exploited to train the decision forest and test its performance afterwards. The dierent algorithms and methods were proposed and examined to improve the performance of the random forest. The results published at the end of the thesis approve our approaches and show better outcomes in comparison with the baseline forest.

URI

http://hdl.handle.net/10467/79832

Kolekce

Bakalářské práce - 14101 [278]