Neúplná Data a Rozhodovací Lesy v Úloze Klasifikace Šifrovaného síťového provozu
Handling Missing Values in Decision Forests in the Encrypted Network Traffic
dc.contributor.advisor | Brabec Jan | |
dc.contributor.author | Sahula Lukáš | |
dc.date.accessioned | 2019-01-31T12:01:42Z | |
dc.date.available | 2019-01-31T12:01:42Z | |
dc.date.issued | 2018-06-12 | |
dc.identifier | KOS-695600211305 | |
dc.identifier.uri | http://hdl.handle.net/10467/79325 | |
dc.description.abstract | Tato práce zkoumá problém klasifikace malware za použití klasifikátoru náhodných lesů trénovaných na datasetu získaném ze síťového provozu. Tento dataset obsahuje stovky milionů kategorizovaných záznamů, z nichž některé jsou spojené s určitým druhem malwarové infekce. Avšak zhruba polovina hodnot v datasetu chybí a s těmito chybějícími hodnotami je nutno se vypořádat, ať už před procesem klasifikace, nebo během něj. Práce ukáže několik existujících způsobů imputace chybějících dat a porovná výsledky těch, které jsou vhodné k použití s datasetem těchto rozměrů. Dále práce poskytne analýzu použitých dat se záměrem nalezení míry korelace mezi páry jednotlivých atributů a toho, za jakých podmínek jednotlivé atributy chybí. | cze |
dc.description.abstract | This thesis examines the problem of malware classification using the random forest classifier trained on network traffic dataset. The dataset contains hundreds of millions of labeled objects, some of which are related to malware infection. However, roughly half of the datasets values are missing and these missing values have to be handled before or during the process of classification. The thesis discusses a number of existing approaches to missing data imputation and compares the results of those that are relevant to datasets of this scale. Furthermore, this work provides an analysis of the dataset itself in order to find the correlations between pairs of features and their missingness. | eng |
dc.language.iso | ENG | |
dc.publisher | České vysoké učení technické v Praze. Vypočetní a informační centrum. | cze |
dc.publisher | Czech Technical University in Prague. Computing and Information Centre. | eng |
dc.rights | A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html | eng |
dc.rights | Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html | cze |
dc.subject | malware,klasifikace,náhodné lesy,učení s učitelem,chybějící hodnoty,imputace,feature,korelace | cze |
dc.subject | malware,classification,random forests,supervised learning,missing values,imputation,feature,correlation | eng |
dc.title | Neúplná Data a Rozhodovací Lesy v Úloze Klasifikace Šifrovaného síťového provozu | cze |
dc.title | Handling Missing Values in Decision Forests in the Encrypted Network Traffic | eng |
dc.type | bakalářská práce | cze |
dc.type | bachelor thesis | eng |
dc.contributor.referee | Svatoš Martin | |
theses.degree.grantor | katedra počítačů | cze |
theses.degree.programme | Softwarové inženýrství a technologie | cze |
Soubory tohoto záznamu
Tento záznam se objevuje v následujících kolekcích
-
Bakalářské práce - 13136 [1124]