Internet Traffic Classification
Klasifikace internetového provozu
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date
Abstract
Práce se zabývá celým procesem strojového učení pro klasifikaci internetového provozu a určení škodlivé komunikace. Proces je popsán od získání dat, jejich zpracování až po výběr vhodných příznaků a algoritmů, společně s jejich výsledky. Pro řešení této úlohy byly vybrány supervizované klasifikační algoritmy a algoritmy pro detekci anomálií. Při klasifikaci internetového provozu bylo dosaženo vysoké úspěšnosti pro všechny zvolené datasety pomocí stromových algoritmů. U detekce anomálií bylo dosaženo uspokojivé přesnosti pouze u dvou datasetů ze sedmi.
This thesis delves into the topic of machine learning for the classification of internet traffic and the determination of harmful traffic. All steps of machine learning are considered as data collection and data preprocessing. Suitable classification algorithms and anomaly detection algorithms were chosen to accomplish the main task of the thesis. With regards to the classification of internet traffic, a high success rate was achieved for all selected datasets using supervised algorithms based on decision tree. For harmful traffic detection, only two of the seven datasets achieved a satisfactory score with used anomaly detection algorithms.
This thesis delves into the topic of machine learning for the classification of internet traffic and the determination of harmful traffic. All steps of machine learning are considered as data collection and data preprocessing. Suitable classification algorithms and anomaly detection algorithms were chosen to accomplish the main task of the thesis. With regards to the classification of internet traffic, a high success rate was achieved for all selected datasets using supervised algorithms based on decision tree. For harmful traffic detection, only two of the seven datasets achieved a satisfactory score with used anomaly detection algorithms.