Učení modelů na datech se složitou strukturou s aplikacemi pro kybernetickou bezpečnost

Tomáš Komárek

Learning models on data of difficult structure with applications to cybersecurity

dc.contributor.advisor	Somol Petr
dc.contributor.author	Tomáš Komárek
dc.date.accessioned	2023-07-13T14:19:10Z
dc.date.available	2023-07-13T14:19:10Z
dc.date.issued	2023-06-05
dc.identifier	KOS-682906604605
dc.identifier.uri	http://hdl.handle.net/10467/110898
dc.description.abstract	Vhodná reprezentace vstupních dat je pro úspěšnou aplikaci učících se modelů klíčová. Zatímco pro homogenní data, jako jsou obrázky, text nebo zvuk, již byly vyvinuty end-to-end modely schopné učit se přímo z nezpracovaných dat, pro heterogenní data, jako jsou dokumenty JavaScript Object Notation (JSON), jsou stále standardem ručně navrhované příznakové reprezentace. Ruční navrhování příznaků je však časově náročné a často neoptimální, protože ne vždy se podaří vyextrahovat veškerou relevantní informaci, kterou by model mohl využít, a to ani expertům v dané oblasti. Navíc se tento dodatečný krok v procesu strojového učení může rychle stát úzkým hrdlem při experimentování s novými zdroji dat nebo v dynamicky se vyvíjejících prostředích, kde význam jednotlivých příznaků podléhá změnám a celý proces je potřeba neustále opakovat. Jako řešení tohoto problému navrhujeme plně automatizovaný end-to-end způsob učení modelů nad hierarchicky strukturovanými daty ve formátu JSON, který eliminuje nutnost manuálního zásahu. Stačí pouze sesbírat veškeré dostupné informace o každém zkoumaném objektu do samostatného JSON souboru. Model pak v závislosti na konkrétní úloze automatizovaně rozhodne, které informace jsou relevantní a které lze vyřadit. K dosažení tohoto cíle jsme vyvinuli nástroj JSON2bag, který řevádí problém učení nad soubory typu JSON na problém multi-instančního učení (MIL), a také dva samostatné MIL modely, které lze využít k řešení obecných MIL problémů: Bag-level Randomized Trees (BLRT) a Instance Selection Randomized Trees (ISRT). Na veřejně dostupných referenčních datových sadách prokazujeme, že každá z navrhovaných metod překonává dosavadní známá řešení, a to i bez pečlivého ladění hyperparametrů. Co je však důležitější, na pěti reálných aplikacích v oblasti kybernetické bezpečnosti ukazujeme, že multi-instanční učení a učení nad soubory JSON řeší řadu důležitých problémů v této oblasti. Konkrétně flexibilita formátu JSON umožňuje kombinovat slabé signály různých typů, velikostí a kvality a zlepšit tak celkovou přesnost predikcí. Dále práce s entitami vyšší úrovně (reprezentovanými soubory JSON) namísto jednotlivých nízkoúrovňových slabých signálů redukuje náklady na anotaci dat, jelikož je díky agregaci méně entit k anotaci. A nakonec, přestože jsou k dispozici pouze anotace pro entity vyšší úrovně, navrhovaná metoda dokáže přirozeně vysvětlit pozitivní predikce poukázáním na signály nižší úrovně, které predikce způsobují.	cze
dc.description.abstract	A proper input data representation is essential for the successful application of learning models. While for homogeneous data like images, text, or sounds, end-to-end models capable of learning directly from raw data have already been developed, for heterogeneous data, such as JavaScript Object Notation (JSON) documents, manually designed feature representations are still the norm. Designing features by hand is, however, time-consuming and often suboptimal because not all of the discriminative information that a model could use is always extracted, even by domain experts. Moreover, this extra step in the machine learning pipeline might quickly become a bottleneck when experimenting with new data sources and/or in fast-evolving environments where the importance of individual features is subject to change and the whole proces needs to be repeated again and again. To address this issue, we propose a fully automated end-to-end approach for learning models on hierarchically structured data in JSON format, which eliminates the need for manual intervention. Collecting all the available information about each examined object into a single JSON file is all that is required. Then, depending on the task, a model will automatically decide which information is relevant and which can be discarded. To achieve this, we developer a JSON2bag tool that maps the problem of learning on JSONs into a Multiple Instance Learning (MIL) problem, as well as two independent MIL models that can be applied to general MIL problems: Bag-level Randomized Trees (BLRT) and Instance Selection Randomized Trees (ISRT). On publicly available benchmark datasets, we demonstrate that each of the proposed methods outperforms prior-art solutions, even without careful hyper-parameter tuning. More importantly, we show on five real-world cybersecurity applications that MIL and learning on JSONs address a number of important problems in that field. Specifically, the flexibility of the JSON format makes it possible to combine weak signals of different types, sizes, and quality to improve the overall accuracy of predictions. Next, working with higher-level entities (represented by the JSONs) instead of the individual lower-level weak signals reduces label acquisition costs since there is less to annotate. Lastly, despite having labels only for high-level entities, the proposed method can naturally explain alerts by pointing out which low-level signals cause the alerts.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	end-to-end učení	cze
dc.subject	dokumenty JSON	cze
dc.subject	stromově strukturovaná data	cze
dc.subject	kombinování	cze
dc.subject	heterogenních zdrojů dat	cze
dc.subject	heterogenní typy dat	cze
dc.subject	učení s využitím kontextuální informace	cze
dc.subject	multiinstanční učení	cze
dc.subject	rozhodovací stromy	cze
dc.subject	vysvětlitelnost	cze
dc.subject	kybernetická bezpečnost	cze
dc.subject	end-to-end learning	eng
dc.subject	JSON documents	eng
dc.subject	tree-structured data	eng
dc.subject	combining heterogeneous data sources	eng
dc.subject	heterogeneous data types	eng
dc.subject	learning with contextual information	eng
dc.subject	multiple instance learning	eng
dc.subject	decision tree ensembles	eng
dc.subject	explainability	eng
dc.subject	cybersecurity	eng
dc.title	Učení modelů na datech se složitou strukturou s aplikacemi pro kybernetickou bezpečnost	cze
dc.title	Learning models on data of difficult structure with applications to cybersecurity	eng
dc.type	disertační práce	cze
dc.type	doctoral thesis	eng
dc.contributor.referee	Cavallaro Lorenzo
theses.degree.discipline	Informatika a výpočetní technika	cze
theses.degree.grantor	katedra počítačů	cze
theses.degree.programme	Elektrotechnika a informatika	cze

Soubory tohoto záznamu

Název:: F3-D-2023-Komarek-Tomas-komare ...
Velikost:: 1.394Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Disertační práce - 13000 [704]

Zobrazit minimální záznam