Show simple item record

Distributed Algorithms for Decision Forest Training in the Network Traffic Classification Task

dc.contributor.advisorBrabec Jan
dc.contributor.authorStarosta Radek
dc.date.accessioned2018-06-07T10:23:16Z
dc.date.available2018-06-07T10:23:16Z
dc.date.issued2018-06-04
dc.identifierKOS-593779829705
dc.identifier.urihttp://hdl.handle.net/10467/76092
dc.description.abstractV této práci se zaměřujeme na zlepšení výkonu distribuovaného trénování náhodných lesů v knihovně Spark MLlib. Trénovací proces optimalizujeme přidáním fáze lokálního trénování, ve které dotrénujeme podstromy pro dostatečně malé uzly lokálně v paměti jednotlivých strojů. Tyto uzly nejprve seskupíme do větších a vyváženějších lokálně trénovaných úloh pomocí binpackingu, a následně tyto úlohy efektivně rozplánujeme s pomocí prediktoru, který přesněji odhaduje jejich dobu trvání. Lokální trénování nám také umožňuje trénovat hluboké rozhodovací stromy a eliminovat část paměťových problémů v současné implementaci. Naši implementaci testujeme na velkých datech ze síťového provozu, která se používají k detekci malwaru. Na této trénovací sadě je náš algoritmus více než 105x rychlejší než původní implementace. Toto zlepšení nám umožňuje trénovat náhodné lesy na větších trénovacích sadách, což může výrazně zlepšit výkon klasifikátorů. Klasifikátor pro detekci malwaru, který byl natrénovaný algoritmem popsaným v této práci, se již aktivně používá v systému Cisco Cognitive Threat Analytics, a naše implementaci jej umožnila natrénovat na více než desetinásobném množství dat.cze
dc.description.abstractIn this thesis, we focus on improving the performance of distributed random forest training in Spark MLlib. To optimize the training process, we introduce a local training phase in which we complete the tree induction of sufficiently small nodes in-memory. Further, we group these nodes into larger and more balanced local training tasks using bin packing and effectively schedule the tasks using an offline-trained predictor to predict task duration more accurately. Our algorithm allows training of deeper decision trees and mitigates runtime memory issues. We benchmark our implementation on a huge, real network traffic dataset used for malware detection, for which it is up to 105x faster than the original MLlib implementation. This performance improvement allows us to train random forests on larger datasets, which can significantly improve classification predictive performance. A classifier for malware detection trained using the algorithm presented in this thesis is actively used in the Cisco Cognitive Threat Analytics system. Thanks to our implementation, we were able to train it using 10x more data than before.eng
dc.language.isoENG
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html.eng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html.cze
dc.subjectnáhodné lesy,Apache Spark,MLlib,distribuované trénovánícze
dc.subjectrandom forest,Apache Spark,MLlib,distributed trainingeng
dc.titleDistribuované algoritmy pro trénink rozhodovacích lesů v úloze klasifikace síťového provozucze
dc.titleDistributed Algorithms for Decision Forest Training in the Network Traffic Classification Taskeng
dc.typeBAKALÁŘSKÁ PRÁCEcze
dc.typeBACHELOR THESISeng
dc.date.accepted
dc.contributor.refereeCvrček Vojtěch
theses.degree.disciplineInformatika a počítačové vědycze
theses.degree.grantorkatedra kybernetikycze
theses.degree.programmeOtevřená informatikacze


Files in this item





This item appears in the following Collection(s)

Show simple item record