Klasifikace částečně anotovaných dat do více tříd za pomoci rozhodovacích lesů
Decision forests and multi-class classification of partially labeled data
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Oharek Martin
Vedoucí práce
Machlica Lukáš
Oponent práce
Kopp Martin
Studijní obor
Matematické inženýrstvíStudijní program
Aplikace přírodních vědInstituce přidělující hodnost
katedra matematikyObhájeno
2018-09-04Práva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Tato práce se zabývá klasifikací částečně anotovaných a nevyvážených dat. Typickým příkladem částečně anotovaných dat jsou údaje z proxy-logů charakterizující síťový provoz. Je vyvíjena snaha klasifikovat tyto údaje a rozlišovat mezi neoznačeným legitimním provozem (negativní) a označeným nelegitimním (malware) provozem (pozitivní). Případů legitimního provozu je více než nelegitimního a vzniká nevyváženost, která způsobuje problémy při klasifikaci. K účelu klasifikace jsme využívali náhodné rozhodovací lesy. V práci jsme trénovali rozhodovací les a testovali kvalitu výsledků klasifikace na datech z proxy-logů poskytnutých společností Cisco Systems, s.r.o. Byly navrhnuty a testovány další metody a algoritmy vedoucí k zlepšení kvality klasifikace. Výsledky zveřejněné na konci práce ukazují, že testované metody výrazně napomáhají ke zlepšení klasifikace. This thesis focuses on the task of classification of partially labeled and imbalanced data. Typical instances of partially labeled data are details extracted from proxy-logs. Such data contain information about network traffic (network flow). The data from network traffic were provided by Cisco Systems, Inc. and they divide into labeled malicious objects (positive) and unlabeled legitimate operation (negative). Generally, such dataset includes much more negative instances than positive instances and it leads to imbalance and causes problems in the task of classification. In order to classify these data the random decision forest was applied. The data were exploited to train the decision forest and test its performance afterwards. The dierent algorithms and methods were proposed and examined to improve the performance of the random forest. The results published at the end of the thesis approve our approaches and show better outcomes in comparison with the baseline forest.
Kolekce
- Bakalářské práce - 14101 [278]