Porovnání metod pro detekci driftu konceptu v datových tocích

Daniil Barabašev

Comparing Methods for Detecting Concept Drift in Data Streams

Type of document

bakalářská práce
bachelor thesis

Author

Daniil Barabašev

Supervisor

Lisý Viliam

Opponent

Zorek Matěj

Field of study

Základy umělé inteligence a počítačových věd

Study program

Otevřená informatika

Institutions assigning rank

katedra kybernetiky

Rights

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Show full item record

Abstract

Tato práce se zabývá různými metodami detekce driftu konceptu v datových tocích a testuje je na datasetu z oblasti kybernetické bezpečnosti. Popisuje současné chápání driftu konceptu a diskutuje o dostupné literatuře pro detekci tohoto fenoménu. Výzkum porovnává několik strategií, které se zabývají detekcí. Experimenty využívají dataset z oblasti kybernetické bezpečnosti a porovnává, jak si tyto strategie poradí s reálným scénářem. Nakonec tato práce navrhuje vylepšení metod MD3 a D3 využitím hybridu těchto metodik. Experimenty ukazují, že sledování a řešení driftu konceptu v datových tocích zlepšuje výkon klasifikátorů za cenu zvýšené režie.

This thesis investigates various methods for detecting concept drift in data streams and testing it on a cybersecurity dataset. It describes the current understanding of concept drift and discusses available literature for concept drift detection. The research evaluates several strategies that address concept drift detection. The experimental evaluation utilizes a cybersecurity dataset to compare how these strategies can handle a real-world scenario. Lastly, I propose an improvement to the capability of MD3 and D3 methods by employing a hybrid of these methodologies. The experiments show that tracking and handling concept drift in data streams improves classifiers' performance for the price of some overhead.