Problém nevyváženosti tříd v kyberbezpečnosti
Class-Imbalanced Data in Cybersecurity
dc.contributor.advisor | Somol Petr | |
dc.contributor.author | Jan Brabec | |
dc.date.accessioned | 2024-10-15T09:19:35Z | |
dc.date.available | 2024-10-15T09:19:35Z | |
dc.date.issued | 2024-09-06 | |
dc.identifier | KOS-917342270505 | |
dc.identifier.uri | http://hdl.handle.net/10467/118541 | |
dc.description.abstract | Nevyváženost tříd je všudypřítomným problémem v mnoha reálných aplikacích strojového učení.V oblasti kybernetické bezpečnosti je tento problém obzvláště závažný, neboť škodlivé události jsou často výrazně převáženy benigními případy.Tato práce zkoumá dopady nevyváženosti tříd na výkonnost klasifikačních systémů v kybernetické bezpečnosti a napříč různými fázemi procesu vývoje klasifikátorů založených na principu strojového učení a navrhuje nové přístupy k zmírnění jejích nepříznivých dopadů. Mezi hlavní přínosy práce patří metody pro robustní vyhodnocování klasifikátorů v podmínkách nevyváženosti tříd a posunu distribuce mezi testovacím a prostředím, ve kterém je klasifikátor nasazen. Dále provádíme rozsáhlou empirickou studii porovnávající účinnost metod předzpracování dat pro zmírnění nevyváženosti tříd. Přinášíme metodu Bayesovské agregace stromů pro zlepšení detekce vzácných tříd pomocí modelů založených na rozhodovacích stromech, a představujeme metody pro škálování těchto modelů na velké datové sady. V neposlední řadě popisujeme, jak navrhovat robustní systémy kybernetické bezpečnosti v přítomnosti závažné nevyváženosti tříd a dalších komplikujících podmínek často se vyskytujících v této doméně.Účinnost navržené architektury je demonstrována prostřednictvím případových studií systému pro detekci síťových průniků a nového systému pro detekci sofistikovaných škodlivých emailů. | cze |
dc.description.abstract | Class imbalance is a pervasive problem in many real-world applications of machine learning. In cybersecurity, the problem is particularly severe as malicious events are often vastly outnumbered by benign instances. This thesis investigates the impact of class imbalance on the performance of classification systems in cybersecurity across various stages of the machine learning development process, and proposes novel approaches to mitigate its adverse effects. Among other contributions, we present methods for robust evaluation of classifiers under class imbalance and distribution shift between test and deployment environments, and conduct an extensive empirical study comparing the effectiveness of data preprocessing methods for class imbalance mitigation that provides recommendations relevant beyond cybersecurity. We introduce Bayesian Tree Aggregation, a novel technique for improving rare class detection in tree ensembles, and develop methods for scaling tree-based models to large datasets which indirectly improves predictive performance by eliminating the need for majority class undersampling. Furthermore, we describe how to design robust ndustrial-scale cybersecurity systems in the presence of severe class imbalance and other complicating conditions frequently encountered in the domain. The effectiveness of the proposed architecture is demonstrated through case studies of a network intrusion detection system and a novel email security system for detecting business email compromise. | eng |
dc.publisher | České vysoké učení technické v Praze. Vypočetní a informační centrum. | cze |
dc.publisher | Czech Technical University in Prague. Computing and Information Centre. | eng |
dc.rights | A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html | eng |
dc.rights | Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html | cze |
dc.subject | kyberbezpečnost | cze |
dc.subject | nevyváženost tříd | cze |
dc.subject | klasifikace | cze |
dc.subject | strojové učení | cze |
dc.subject | rozhodovací stromy | cze |
dc.subject | náhodné lesy | cze |
dc.subject | cybersecurity | eng |
dc.subject | class imbalance | eng |
dc.subject | machine learning | eng |
dc.subject | classification | eng |
dc.subject | decision trees | eng |
dc.subject | random forests | eng |
dc.title | Problém nevyváženosti tříd v kyberbezpečnosti | cze |
dc.title | Class-Imbalanced Data in Cybersecurity | eng |
dc.type | disertační práce | cze |
dc.type | doctoral thesis | eng |
dc.contributor.referee | Poiesi Fabio | |
theses.degree.discipline | Informatika a výpočetní technika | cze |
theses.degree.grantor | katedra počítačů | cze |
theses.degree.programme | Elektrotechnika a informatika | cze |
Soubory tohoto záznamu
Tento záznam se objevuje v následujících kolekcích
-
Disertační práce - 13000 [746]