Klasifikace částečně anotovaných dat do více tříd za pomoci rozhodovacích lesů
Decision forests and multi-class classification of partially labeled data
dc.contributor.advisor | Machlica Lukáš | |
dc.contributor.author | Oharek Martin | |
dc.date.accessioned | 2019-02-20T10:48:04Z | |
dc.date.available | 2019-02-20T10:48:04Z | |
dc.date.issued | 2018-08-30 | |
dc.identifier | KOS-695599812305 | |
dc.identifier.uri | http://hdl.handle.net/10467/79832 | |
dc.description.abstract | Tato práce se zabývá klasifikací částečně anotovaných a nevyvážených dat. Typickým příkladem částečně anotovaných dat jsou údaje z proxy-logů charakterizující síťový provoz. Je vyvíjena snaha klasifikovat tyto údaje a rozlišovat mezi neoznačeným legitimním provozem (negativní) a označeným nelegitimním (malware) provozem (pozitivní). Případů legitimního provozu je více než nelegitimního a vzniká nevyváženost, která způsobuje problémy při klasifikaci. K účelu klasifikace jsme využívali náhodné rozhodovací lesy. V práci jsme trénovali rozhodovací les a testovali kvalitu výsledků klasifikace na datech z proxy-logů poskytnutých společností Cisco Systems, s.r.o. Byly navrhnuty a testovány další metody a algoritmy vedoucí k zlepšení kvality klasifikace. Výsledky zveřejněné na konci práce ukazují, že testované metody výrazně napomáhají ke zlepšení klasifikace. | cze |
dc.description.abstract | This thesis focuses on the task of classification of partially labeled and imbalanced data. Typical instances of partially labeled data are details extracted from proxy-logs. Such data contain information about network traffic (network flow). The data from network traffic were provided by Cisco Systems, Inc. and they divide into labeled malicious objects (positive) and unlabeled legitimate operation (negative). Generally, such dataset includes much more negative instances than positive instances and it leads to imbalance and causes problems in the task of classification. In order to classify these data the random decision forest was applied. The data were exploited to train the decision forest and test its performance afterwards. The dierent algorithms and methods were proposed and examined to improve the performance of the random forest. The results published at the end of the thesis approve our approaches and show better outcomes in comparison with the baseline forest. | eng |
dc.language.iso | CZE | |
dc.publisher | České vysoké učení technické v Praze. Vypočetní a informační centrum. | cze |
dc.publisher | Czech Technical University in Prague. Computing and Information Centre. | eng |
dc.rights | A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html | eng |
dc.rights | Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html | cze |
dc.subject | důležitost příznaků,klasifikace,malware,nevyvážená data,rozhodovací lesy,shlukování | cze |
dc.subject | classification,clustering,decision forests,feature importance,imbalanced data,malware | eng |
dc.title | Klasifikace částečně anotovaných dat do více tříd za pomoci rozhodovacích lesů | cze |
dc.title | Decision forests and multi-class classification of partially labeled data | eng |
dc.type | bakalářská práce | cze |
dc.type | bachelor thesis | eng |
dc.date.accepted | 2018-09-04 | |
dc.contributor.referee | Kopp Martin | |
theses.degree.discipline | Matematické inženýrství | cze |
theses.degree.grantor | katedra matematiky | cze |
theses.degree.programme | Aplikace přírodních věd | cze |
Soubory tohoto záznamu
Soubory | Velikost | Formát | Zobrazit |
---|---|---|---|
K tomuto záznamu nejsou připojeny žádné soubory. |
Tento záznam se objevuje v následujících kolekcích
-
Bakalářské práce - 14101 [278]