Zobrazit minimální záznam

Class-Imbalanced Data in Cybersecurity



dc.contributor.advisorSomol Petr
dc.contributor.authorJan Brabec
dc.date.accessioned2024-10-15T09:19:35Z
dc.date.available2024-10-15T09:19:35Z
dc.date.issued2024-09-06
dc.identifierKOS-917342270505
dc.identifier.urihttp://hdl.handle.net/10467/118541
dc.description.abstractNevyváženost tříd je všudypřítomným problémem v mnoha reálných aplikacích strojového učení.V oblasti kybernetické bezpečnosti je tento problém obzvláště závažný, neboť škodlivé události jsou často výrazně převáženy benigními případy.Tato práce zkoumá dopady nevyváženosti tříd na výkonnost klasifikačních systémů v kybernetické bezpečnosti a napříč různými fázemi procesu vývoje klasifikátorů založených na principu strojového učení a navrhuje nové přístupy k zmírnění jejích nepříznivých dopadů. Mezi hlavní přínosy práce patří metody pro robustní vyhodnocování klasifikátorů v podmínkách nevyváženosti tříd a posunu distribuce mezi testovacím a prostředím, ve kterém je klasifikátor nasazen. Dále provádíme rozsáhlou empirickou studii porovnávající účinnost metod předzpracování dat pro zmírnění nevyváženosti tříd. Přinášíme metodu Bayesovské agregace stromů pro zlepšení detekce vzácných tříd pomocí modelů založených na rozhodovacích stromech, a představujeme metody pro škálování těchto modelů na velké datové sady. V neposlední řadě popisujeme, jak navrhovat robustní systémy kybernetické bezpečnosti v přítomnosti závažné nevyváženosti tříd a dalších komplikujících podmínek často se vyskytujících v této doméně.Účinnost navržené architektury je demonstrována prostřednictvím případových studií systému pro detekci síťových průniků a nového systému pro detekci sofistikovaných škodlivých emailů.cze
dc.description.abstractClass imbalance is a pervasive problem in many real-world applications of machine learning. In cybersecurity, the problem is particularly severe as malicious events are often vastly outnumbered by benign instances. This thesis investigates the impact of class imbalance on the performance of classification systems in cybersecurity across various stages of the machine learning development process, and proposes novel approaches to mitigate its adverse effects. Among other contributions, we present methods for robust evaluation of classifiers under class imbalance and distribution shift between test and deployment environments, and conduct an extensive empirical study comparing the effectiveness of data preprocessing methods for class imbalance mitigation that provides recommendations relevant beyond cybersecurity. We introduce Bayesian Tree Aggregation, a novel technique for improving rare class detection in tree ensembles, and develop methods for scaling tree-based models to large datasets which indirectly improves predictive performance by eliminating the need for majority class undersampling. Furthermore, we describe how to design robust ndustrial-scale cybersecurity systems in the presence of severe class imbalance and other complicating conditions frequently encountered in the domain. The effectiveness of the proposed architecture is demonstrated through case studies of a network intrusion detection system and a novel email security system for detecting business email compromise.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectkyberbezpečnostcze
dc.subjectnevyváženost třídcze
dc.subjectklasifikacecze
dc.subjectstrojové učenícze
dc.subjectrozhodovací stromycze
dc.subjectnáhodné lesycze
dc.subjectcybersecurityeng
dc.subjectclass imbalanceeng
dc.subjectmachine learningeng
dc.subjectclassificationeng
dc.subjectdecision treeseng
dc.subjectrandom forestseng
dc.titleProblém nevyváženosti tříd v kyberbezpečnosticze
dc.titleClass-Imbalanced Data in Cybersecurityeng
dc.typedisertační prácecze
dc.typedoctoral thesiseng
dc.contributor.refereePoiesi Fabio
theses.degree.disciplineInformatika a výpočetní technikacze
theses.degree.grantorkatedra počítačůcze
theses.degree.programmeElektrotechnika a informatikacze


Soubory tohoto záznamu


Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam