Zobrazit minimální záznam

Handling Missing Values in Decision Forests in the Encrypted Network Traffic



dc.contributor.advisorBrabec Jan
dc.contributor.authorSahula Lukáš
dc.date.accessioned2019-01-31T12:01:42Z
dc.date.available2019-01-31T12:01:42Z
dc.date.issued2018-06-12
dc.identifierKOS-695600211305
dc.identifier.urihttp://hdl.handle.net/10467/79325
dc.description.abstractTato práce zkoumá problém klasifikace malware za použití klasifikátoru náhodných lesů trénovaných na datasetu získaném ze síťového provozu. Tento dataset obsahuje stovky milionů kategorizovaných záznamů, z nichž některé jsou spojené s určitým druhem malwarové infekce. Avšak zhruba polovina hodnot v datasetu chybí a s těmito chybějícími hodnotami je nutno se vypořádat, ať už před procesem klasifikace, nebo během něj. Práce ukáže několik existujících způsobů imputace chybějících dat a porovná výsledky těch, které jsou vhodné k použití s datasetem těchto rozměrů. Dále práce poskytne analýzu použitých dat se záměrem nalezení míry korelace mezi páry jednotlivých atributů a toho, za jakých podmínek jednotlivé atributy chybí.cze
dc.description.abstractThis thesis examines the problem of malware classification using the random forest classifier trained on network traffic dataset. The dataset contains hundreds of millions of labeled objects, some of which are related to malware infection. However, roughly half of the datasets values are missing and these missing values have to be handled before or during the process of classification. The thesis discusses a number of existing approaches to missing data imputation and compares the results of those that are relevant to datasets of this scale. Furthermore, this work provides an analysis of the dataset itself in order to find the correlations between pairs of features and their missingness.eng
dc.language.isoENG
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectmalware,klasifikace,náhodné lesy,učení s učitelem,chybějící hodnoty,imputace,feature,korelacecze
dc.subjectmalware,classification,random forests,supervised learning,missing values,imputation,feature,correlationeng
dc.titleNeúplná Data a Rozhodovací Lesy v Úloze Klasifikace Šifrovaného síťového provozucze
dc.titleHandling Missing Values in Decision Forests in the Encrypted Network Trafficeng
dc.typebakalářská prácecze
dc.typebachelor thesiseng
dc.contributor.refereeSvatoš Martin
theses.degree.grantorkatedra počítačůcze
theses.degree.programmeSoftwarové inženýrství a technologiecze


Soubory tohoto záznamu





Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam