Klasifikace operačního systému zařízení na základě síťových toků
Classification of device operating system based on network flow data
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Matěj Bulíř
Vedoucí práce
Hulák Matej
Oponent práce
Jureček Martin
Studijní obor
Informační bezpečnost 2021Studijní program
InformatikaInstituce přidělující hodnost
katedra informační bezpečnostiPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Tato bakalářská práce se zabývá klasifikací operačních systémů na základě síťových toků. Pro klasifikaci je využito metod strojového učení. Před samotnou aplikací strojového učení jsou ze síťových toků agregovány relevantní informace, které slouží jako vstupní příznaky. Řešení je implementováno v programovacím jazyce Python s využitím knihovny scikit-learn a zaměřuje se rovněž na analýzu výstupů modelu strojového učení. Nejlepšího výsledku bylo dosaženo pomocí algoritmu Random Forest, který dosáhl hodnoty přesnosti 86,46 % (F1-macro) na testovací sadě. Reálné testy na datech z produkční sítě ukázaly, že i bez některých vstupních parametrů je modul schopen klasifikovat zařízení s přesností 59,08 % (F1-macro). Výsledky ukazují potenciál pro další zlepšení přesnosti a spolehlivosti klasifikace. Aby klasifikátor mohl být aplikován, je vytvořen modul pro systém NEMEA, který v reálném čase dokáže klasifikaci provést. This bachelors thesis focuses on the classification of operating systems based on network flows. Machine learning methods are used for the classification. Before applying machine learning, relevant information is aggregated from the network flows to serve as input features. The solution is implemented in the Python programming language using the scikit-learn library and also includes analysis of the machine learning model's outputs. The best result was achieved using the Random Forest algorithm, which reached an 86,46 % F1-macro score on the test dataset. Real-world testing on production network data showed that even without some input features, the module is capable of classifying devices with an F1-macro score of 59,08 %. The results indicate potential for further improvement in classification accuracy and reliability. To enable the application of the classifier a module for the NEMEA system is developed, capable of performing the classification in real time.