Zobrazit minimální záznam

Applications of Deep Reinforcement Learning in Practical Sequential Information Acquisition Problems



dc.contributor.advisorPevný Tomáš
dc.contributor.authorJaromír Janisch
dc.date.accessioned2024-05-10T11:19:17Z
dc.date.available2024-05-10T11:19:17Z
dc.date.issued2024-04-01
dc.identifierKOS-859568962905
dc.identifier.urihttp://hdl.handle.net/10467/114377
dc.description.abstractTato práce se zaměřuje na praktické problémy se sekvenčním získáváním informací, tedy problémy, kde agenti konají akce postupně s ohledem na jejich současnou znalost, a v každém kroku se objeví nová informace. Mnoho problémů z reálného světa lze pojmout tímto způsobem, například analýzu malwaru, ve které agent provede nějaký test, a na základě výsledku se rozhodne, jaké další testy potřebuje, které nástroje použít, nebo zda má již dostatek informací k rozhodnutí. Postupně prezentujeme čtyři stále komplexnější témata inspirované reálnými problémy, a současně uvádíme doménově nezávislá řešení založená na nejmodernějších technikách hlubokého zpětnovazebního učení (tzv. ,,deep RL''). Jednou z předností použití deep RL je, že navržená řešení mohou profitovat z nezávislého vývoje v tomto dynamicky rozvíjejícím se odvětví. V každém tématu posouvá tato práce nejmodernější metody, zlepšuje výkon nebo obecnost nebo pohlíží na problémy novým způsobem. Nejprve prozkoumáváme klasifikační problém, v němž jsou vzorky popsány vektory s fixní dimenzí a jednotlivé prvky jsou získávány postupně, a pouze za nějakou cenu. Cílem je optimalizovat kompromis mezi očekávanou klasifikační chybou a celkovou cenou prvků. Pojímáme problém jako vícekriteriální sekvenční rozhodovací problém, představujeme flexibilní řešení založené na deep RL a experimentálně ukazujeme, že robustně překonává konkurenční metody. Výše uvedený přístup předpokládá, že daný algoritmus zná, jaké prvky jsou v datových vzorcích obsaženy a také, že jejich počet je fixní. To nicméně není pravda pro některé problémy z reálného světa, kde mohou být prvky vnořené, popř. obsaženy v množinách libovolné mohutnosti. V druhém tématu navrhujeme změny v dříve představené metodě tak, aby mohla přirozeně pracovat s uvedenými daty a vybírat prvky v těchto složitých strukturách. Její použití demonstrujeme na praktickém problému identifikace škodlivých webových domén, kde vede ke značným úsporám v porovnání s metodami, které nezohledňují ceny. Ačkoli lze touto metodou zpracovat data strukturovaná jako stromy, není zcela obecná, protože některé reálné problémy nelze vyjádřit tímto způsobem. Ve třetím tématu tedy navrhujeme ještě obecnější systém, který pracuje s problémy přirozeně definovanými pomocí objektů a jejich vztahů a akcí orientovaných na tyto objekty. Protože předchozí přístup nelze použít a nalezení reprezentace s fixní délkou, požadované většinou existujících RL metod, je těžké, ne-li nemožné, představujeme novou deep RL metodu založenou na grafových neuronových sítích a autoregresivní dekompozici strategie, jež s těmito problémy přirozeně pracuje a je úplně doménově nezávislá. Ukazujeme, že naše metoda umožňuje trénovat agenty, kteří vykazují impozantní schopnost generalizace přes problémy různých velikostí, a to bez dalšího trénování. Začtvrté uvádíme případovou studii v automatizovaném penetračním testování. Na základě znalostí získaných v předchozích částech navrhujeme několik agentních architektur, které generalizují do neznámých scénářů. Navíc ukazujeme, že agenti trénovaní v simulaci mohou být nasazeni v emulovaných prostředích obsahujících reálnou síťovou konektivitu, operační systémy a zranitelný software.cze
dc.description.abstractThis thesis focuses on practical sequential information acquisition problems, i.e., problems where agents take actions sequentially, based on their current knowledge, and each step reveals a new piece of information. Many real-world problems can be framed this way, e.g., malware analysis, where an agent performs a test, and based on the result, it decides which other tests it needs, which tools to use, or whether it already has enough information to make a decision. We consecutively present four increasingly complex topics inspired by real-world problems, along with domain-independent solutions based on state-of-the-art deep reinforcement learning (RL) techniques. One of the advantages of using deep RL is that the proposed solutions can benefit from independent progress in this dynamically developing field. Within each topic, the thesis advances state-of-the-art methods, improves performance or generality, or presents novel settings. First, we explore a classification problem where samples are described by vectors of fixed dimensions, and the features are acquired sequentially, and only for a cost. The goal is to optimize the trade-off between the expected classification error and the cumulative feature cost. We frame the problem as a multi-criteria sequential decision-making problem, present a flexible deep RL-based solution, and experimentally demonstrate that it robustly outperforms competing methods. The previous approach assumes the algorithm knows which features are present in data samples, and that their number is fixed. However, this is not true for some real-world problems where features can be nested, or contained in sets of arbitrary cardinality. In the second topic, we propose changes to the formerly introduced framework, so that it can work with such data naturally and select features within these complex structures. We demonstrate its use in the practical problem of malicious web domain identification, where it leads to substantial savings, compared to cost-agnostic methods. While the method can process tree-structured data, it is not completely general, since some real-world problems cannot be represented in this way. Hence, in the third topic, we design an even more general system that works with problems that are naturally defined in terms of objects and relations, and object-centric actions. Since the previous approach is not applicable, and finding a fixed-length representation required by most existing RL methods is difficult, if not impossible, we present a novel deep RL framework based on graph neural networks and autoregressive policy decomposition that naturally works with these problems and is completely domain independent. We demonstrate that our method allows training agents that display impressive zero-shot generalization over different problem sizes. Fourth, we present a case study in automated penetration testing. Based on the knowledge gained in the previous parts, we propose several agent architectures that can generalize to unseen scenarios. Additionally, we demonstrate that agents trained in simulation can be deployed in emulated environments featuring real network connectivity, operating systems and vulnerable software.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjecthluboké zpětnovazební učenícze
dc.subjectpraktické problémy se sběrem informacícze
dc.subjectklasifikace s cennými prvkycze
dc.subjecthierarchické učení s více instancemicze
dc.subjectgrafické neuronové sítěcze
dc.subjectdekompozice strategiecze
dc.subjectautomatické testování bezpečnosticze
dc.subjectgeneralizace bez dalšího učenícze
dc.subjectdeep reinforcement learningeng
dc.subjectpractical information acquisition problemseng
dc.subjectclassification with costly featureseng
dc.subjecthierarchical multiple-instance learningeng
dc.subjectgraph neural networkseng
dc.subjectpolicy decompositioneng
dc.subjectautomated penetration testingeng
dc.subjectzero-shot generalizationeng
dc.titleAplikace hlubokého zpětnovazebního učení v praktických problémech se sekvenčním sběrem informacícze
dc.titleApplications of Deep Reinforcement Learning in Practical Sequential Information Acquisition Problemseng
dc.typedisertační prácecze
dc.typedoctoral thesiseng
dc.contributor.refereeSinha Arunesh
theses.degree.disciplineInformatika a výpočetní technikacze
theses.degree.grantorkatedra počítačůcze
theses.degree.programmeElektrotechnika a informatikacze


Soubory tohoto záznamu


Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam