ČVUT DSpace
  • Search DSpace
  • Čeština
  • Login
  • Čeština
  • Čeština
View Item 
  •   ČVUT DSpace
  • Czech Technical University in Prague
  • Faculty of Electrical Engineering
  • Doctoral Theses - 13000
  • View Item
  • Czech Technical University in Prague
  • Faculty of Electrical Engineering
  • Doctoral Theses - 13000
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Problém nevyváženosti tříd v kyberbezpečnosti

Class-Imbalanced Data in Cybersecurity

Type of document
disertační práce
doctoral thesis
Author
Jan Brabec
Supervisor
Somol Petr
Opponent
Poiesi Fabio
Field of study
Informatika a výpočetní technika
Study program
Elektrotechnika a informatika
Institutions assigning rank
katedra počítačů



Rights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item record
Abstract
Nevyváženost tříd je všudypřítomným problémem v mnoha reálných aplikacích strojového učení.V oblasti kybernetické bezpečnosti je tento problém obzvláště závažný, neboť škodlivé události jsou často výrazně převáženy benigními případy.Tato práce zkoumá dopady nevyváženosti tříd na výkonnost klasifikačních systémů v kybernetické bezpečnosti a napříč různými fázemi procesu vývoje klasifikátorů založených na principu strojového učení a navrhuje nové přístupy k zmírnění jejích nepříznivých dopadů. Mezi hlavní přínosy práce patří metody pro robustní vyhodnocování klasifikátorů v podmínkách nevyváženosti tříd a posunu distribuce mezi testovacím a prostředím, ve kterém je klasifikátor nasazen. Dále provádíme rozsáhlou empirickou studii porovnávající účinnost metod předzpracování dat pro zmírnění nevyváženosti tříd. Přinášíme metodu Bayesovské agregace stromů pro zlepšení detekce vzácných tříd pomocí modelů založených na rozhodovacích stromech, a představujeme metody pro škálování těchto modelů na velké datové sady. V neposlední řadě popisujeme, jak navrhovat robustní systémy kybernetické bezpečnosti v přítomnosti závažné nevyváženosti tříd a dalších komplikujících podmínek často se vyskytujících v této doméně.Účinnost navržené architektury je demonstrována prostřednictvím případových studií systému pro detekci síťových průniků a nového systému pro detekci sofistikovaných škodlivých emailů.
 
Class imbalance is a pervasive problem in many real-world applications of machine learning. In cybersecurity, the problem is particularly severe as malicious events are often vastly outnumbered by benign instances. This thesis investigates the impact of class imbalance on the performance of classification systems in cybersecurity across various stages of the machine learning development process, and proposes novel approaches to mitigate its adverse effects. Among other contributions, we present methods for robust evaluation of classifiers under class imbalance and distribution shift between test and deployment environments, and conduct an extensive empirical study comparing the effectiveness of data preprocessing methods for class imbalance mitigation that provides recommendations relevant beyond cybersecurity. We introduce Bayesian Tree Aggregation, a novel technique for improving rare class detection in tree ensembles, and develop methods for scaling tree-based models to large datasets which indirectly improves predictive performance by eliminating the need for majority class undersampling. Furthermore, we describe how to design robust ndustrial-scale cybersecurity systems in the presence of severe class imbalance and other complicating conditions frequently encountered in the domain. The effectiveness of the proposed architecture is demonstrated through case studies of a network intrusion detection system and a novel email security system for detecting business email compromise.
 
URI
http://hdl.handle.net/10467/118541
View/Open
PLNY_TEXT (2.967Mb)
Collections
  • Disertační práce - 13000 [746]

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Contact Us | Send Feedback
Theme by 
@mire NV
 

 

Useful links

CTU in PragueCentral library of CTUAbout CTU Digital LibraryResourcesStudy and library skillsResearch support

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Contact Us | Send Feedback
Theme by 
@mire NV