Zobrazit minimální záznam

Learning models on data of difficult structure with applications to cybersecurity



dc.contributor.advisorSomol Petr
dc.contributor.authorTomáš Komárek
dc.date.accessioned2023-07-13T14:19:10Z
dc.date.available2023-07-13T14:19:10Z
dc.date.issued2023-06-05
dc.identifierKOS-682906604605
dc.identifier.urihttp://hdl.handle.net/10467/110898
dc.description.abstractVhodná reprezentace vstupních dat je pro úspěšnou aplikaci učících se modelů klíčová. Zatímco pro homogenní data, jako jsou obrázky, text nebo zvuk, již byly vyvinuty end-to-end modely schopné učit se přímo z nezpracovaných dat, pro heterogenní data, jako jsou dokumenty JavaScript Object Notation (JSON), jsou stále standardem ručně navrhované příznakové reprezentace. Ruční navrhování příznaků je však časově náročné a často neoptimální, protože ne vždy se podaří vyextrahovat veškerou relevantní informaci, kterou by model mohl využít, a to ani expertům v dané oblasti. Navíc se tento dodatečný krok v procesu strojového učení může rychle stát úzkým hrdlem při experimentování s novými zdroji dat nebo v dynamicky se vyvíjejících prostředích, kde význam jednotlivých příznaků podléhá změnám a celý proces je potřeba neustále opakovat. Jako řešení tohoto problému navrhujeme plně automatizovaný end-to-end způsob učení modelů nad hierarchicky strukturovanými daty ve formátu JSON, který eliminuje nutnost manuálního zásahu. Stačí pouze sesbírat veškeré dostupné informace o každém zkoumaném objektu do samostatného JSON souboru. Model pak v závislosti na konkrétní úloze automatizovaně rozhodne, které informace jsou relevantní a které lze vyřadit. K dosažení tohoto cíle jsme vyvinuli nástroj JSON2bag, který řevádí problém učení nad soubory typu JSON na problém multi-instančního učení (MIL), a také dva samostatné MIL modely, které lze využít k řešení obecných MIL problémů: Bag-level Randomized Trees (BLRT) a Instance Selection Randomized Trees (ISRT). Na veřejně dostupných referenčních datových sadách prokazujeme, že každá z navrhovaných metod překonává dosavadní známá řešení, a to i bez pečlivého ladění hyperparametrů. Co je však důležitější, na pěti reálných aplikacích v oblasti kybernetické bezpečnosti ukazujeme, že multi-instanční učení a učení nad soubory JSON řeší řadu důležitých problémů v této oblasti. Konkrétně flexibilita formátu JSON umožňuje kombinovat slabé signály různých typů, velikostí a kvality a zlepšit tak celkovou přesnost predikcí. Dále práce s entitami vyšší úrovně (reprezentovanými soubory JSON) namísto jednotlivých nízkoúrovňových slabých signálů redukuje náklady na anotaci dat, jelikož je díky agregaci méně entit k anotaci. A nakonec, přestože jsou k dispozici pouze anotace pro entity vyšší úrovně, navrhovaná metoda dokáže přirozeně vysvětlit pozitivní predikce poukázáním na signály nižší úrovně, které predikce způsobují.cze
dc.description.abstractA proper input data representation is essential for the successful application of learning models. While for homogeneous data like images, text, or sounds, end-to-end models capable of learning directly from raw data have already been developed, for heterogeneous data, such as JavaScript Object Notation (JSON) documents, manually designed feature representations are still the norm. Designing features by hand is, however, time-consuming and often suboptimal because not all of the discriminative information that a model could use is always extracted, even by domain experts. Moreover, this extra step in the machine learning pipeline might quickly become a bottleneck when experimenting with new data sources and/or in fast-evolving environments where the importance of individual features is subject to change and the whole proces needs to be repeated again and again. To address this issue, we propose a fully automated end-to-end approach for learning models on hierarchically structured data in JSON format, which eliminates the need for manual intervention. Collecting all the available information about each examined object into a single JSON file is all that is required. Then, depending on the task, a model will automatically decide which information is relevant and which can be discarded. To achieve this, we developer a JSON2bag tool that maps the problem of learning on JSONs into a Multiple Instance Learning (MIL) problem, as well as two independent MIL models that can be applied to general MIL problems: Bag-level Randomized Trees (BLRT) and Instance Selection Randomized Trees (ISRT). On publicly available benchmark datasets, we demonstrate that each of the proposed methods outperforms prior-art solutions, even without careful hyper-parameter tuning. More importantly, we show on five real-world cybersecurity applications that MIL and learning on JSONs address a number of important problems in that field. Specifically, the flexibility of the JSON format makes it possible to combine weak signals of different types, sizes, and quality to improve the overall accuracy of predictions. Next, working with higher-level entities (represented by the JSONs) instead of the individual lower-level weak signals reduces label acquisition costs since there is less to annotate. Lastly, despite having labels only for high-level entities, the proposed method can naturally explain alerts by pointing out which low-level signals cause the alerts.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectend-to-end učenícze
dc.subjectdokumenty JSONcze
dc.subjectstromově strukturovaná datacze
dc.subjectkombinovánícze
dc.subjectheterogenních zdrojů datcze
dc.subjectheterogenní typy datcze
dc.subjectučení s využitím kontextuální informacecze
dc.subjectmultiinstanční učenícze
dc.subjectrozhodovací stromycze
dc.subjectvysvětlitelnostcze
dc.subjectkybernetická bezpečnostcze
dc.subjectend-to-end learningeng
dc.subjectJSON documentseng
dc.subjecttree-structured dataeng
dc.subjectcombining heterogeneous data sourceseng
dc.subjectheterogeneous data typeseng
dc.subjectlearning with contextual informationeng
dc.subjectmultiple instance learningeng
dc.subjectdecision tree ensembleseng
dc.subjectexplainabilityeng
dc.subjectcybersecurityeng
dc.titleUčení modelů na datech se složitou strukturou s aplikacemi pro kybernetickou bezpečnostcze
dc.titleLearning models on data of difficult structure with applications to cybersecurityeng
dc.typedisertační prácecze
dc.typedoctoral thesiseng
dc.contributor.refereeCavallaro Lorenzo
theses.degree.disciplineInformatika a výpočetní technikacze
theses.degree.grantorkatedra počítačůcze
theses.degree.programmeElektrotechnika a informatikacze


Soubory tohoto záznamu


Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam