Porovnání metod pro detekci driftu konceptu v datových tocích

Daniil Barabašev

Comparing Methods for Detecting Concept Drift in Data Streams

Typ dokumentu

bakalářská práce
bachelor thesis

Autor

Daniil Barabašev

Vedoucí práce

Lisý Viliam

Oponent práce

Zorek Matěj

Studijní obor

Základy umělé inteligence a počítačových věd

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra kybernetiky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Tato práce se zabývá různými metodami detekce driftu konceptu v datových tocích a testuje je na datasetu z oblasti kybernetické bezpečnosti. Popisuje současné chápání driftu konceptu a diskutuje o dostupné literatuře pro detekci tohoto fenoménu. Výzkum porovnává několik strategií, které se zabývají detekcí. Experimenty využívají dataset z oblasti kybernetické bezpečnosti a porovnává, jak si tyto strategie poradí s reálným scénářem. Nakonec tato práce navrhuje vylepšení metod MD3 a D3 využitím hybridu těchto metodik. Experimenty ukazují, že sledování a řešení driftu konceptu v datových tocích zlepšuje výkon klasifikátorů za cenu zvýšené režie.

This thesis investigates various methods for detecting concept drift in data streams and testing it on a cybersecurity dataset. It describes the current understanding of concept drift and discusses available literature for concept drift detection. The research evaluates several strategies that address concept drift detection. The experimental evaluation utilizes a cybersecurity dataset to compare how these strategies can handle a real-world scenario. Lastly, I propose an improvement to the capability of MD3 and D3 methods by employing a hybrid of these methodologies. The experiments show that tracking and handling concept drift in data streams improves classifiers' performance for the price of some overhead.