Zobrazit minimální záznam

Decision forests and multi-class classification of partially labeled data



dc.contributor.advisorMachlica Lukáš
dc.contributor.authorOharek Martin
dc.date.accessioned2019-02-20T10:48:04Z
dc.date.available2019-02-20T10:48:04Z
dc.date.issued2018-08-30
dc.identifierKOS-695599812305
dc.identifier.urihttp://hdl.handle.net/10467/79832
dc.description.abstractTato práce se zabývá klasifikací částečně anotovaných a nevyvážených dat. Typickým příkladem částečně anotovaných dat jsou údaje z proxy-logů charakterizující síťový provoz. Je vyvíjena snaha klasifikovat tyto údaje a rozlišovat mezi neoznačeným legitimním provozem (negativní) a označeným nelegitimním (malware) provozem (pozitivní). Případů legitimního provozu je více než nelegitimního a vzniká nevyváženost, která způsobuje problémy při klasifikaci. K účelu klasifikace jsme využívali náhodné rozhodovací lesy. V práci jsme trénovali rozhodovací les a testovali kvalitu výsledků klasifikace na datech z proxy-logů poskytnutých společností Cisco Systems, s.r.o. Byly navrhnuty a testovány další metody a algoritmy vedoucí k zlepšení kvality klasifikace. Výsledky zveřejněné na konci práce ukazují, že testované metody výrazně napomáhají ke zlepšení klasifikace.cze
dc.description.abstractThis thesis focuses on the task of classification of partially labeled and imbalanced data. Typical instances of partially labeled data are details extracted from proxy-logs. Such data contain information about network traffic (network flow). The data from network traffic were provided by Cisco Systems, Inc. and they divide into labeled malicious objects (positive) and unlabeled legitimate operation (negative). Generally, such dataset includes much more negative instances than positive instances and it leads to imbalance and causes problems in the task of classification. In order to classify these data the random decision forest was applied. The data were exploited to train the decision forest and test its performance afterwards. The dierent algorithms and methods were proposed and examined to improve the performance of the random forest. The results published at the end of the thesis approve our approaches and show better outcomes in comparison with the baseline forest.eng
dc.language.isoCZE
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectdůležitost příznaků,klasifikace,malware,nevyvážená data,rozhodovací lesy,shlukovánícze
dc.subjectclassification,clustering,decision forests,feature importance,imbalanced data,malwareeng
dc.titleKlasifikace částečně anotovaných dat do více tříd za pomoci rozhodovacích lesůcze
dc.titleDecision forests and multi-class classification of partially labeled dataeng
dc.typebakalářská prácecze
dc.typebachelor thesiseng
dc.date.accepted2018-09-04
dc.contributor.refereeKopp Martin
theses.degree.disciplineMatematické inženýrstvícze
theses.degree.grantorkatedra matematikycze
theses.degree.programmeAplikace přírodních vědcze


Soubory tohoto záznamu

SouboryVelikostFormátZobrazit

K tomuto záznamu nejsou připojeny žádné soubory.

Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam