Aplikace hlubokého zpětnovazebního učení v praktických problémech se sekvenčním sběrem informací

Jaromír Janisch

Applications of Deep Reinforcement Learning in Practical Sequential Information Acquisition Problems

dc.contributor.advisor	Pevný Tomáš
dc.contributor.author	Jaromír Janisch
dc.date.accessioned	2024-05-10T11:19:17Z
dc.date.available	2024-05-10T11:19:17Z
dc.date.issued	2024-04-01
dc.identifier	KOS-859568962905
dc.identifier.uri	http://hdl.handle.net/10467/114377
dc.description.abstract	Tato práce se zaměřuje na praktické problémy se sekvenčním získáváním informací, tedy problémy, kde agenti konají akce postupně s ohledem na jejich současnou znalost, a v každém kroku se objeví nová informace. Mnoho problémů z reálného světa lze pojmout tímto způsobem, například analýzu malwaru, ve které agent provede nějaký test, a na základě výsledku se rozhodne, jaké další testy potřebuje, které nástroje použít, nebo zda má již dostatek informací k rozhodnutí. Postupně prezentujeme čtyři stále komplexnější témata inspirované reálnými problémy, a současně uvádíme doménově nezávislá řešení založená na nejmodernějších technikách hlubokého zpětnovazebního učení (tzv. ,,deep RL''). Jednou z předností použití deep RL je, že navržená řešení mohou profitovat z nezávislého vývoje v tomto dynamicky rozvíjejícím se odvětví. V každém tématu posouvá tato práce nejmodernější metody, zlepšuje výkon nebo obecnost nebo pohlíží na problémy novým způsobem. Nejprve prozkoumáváme klasifikační problém, v němž jsou vzorky popsány vektory s fixní dimenzí a jednotlivé prvky jsou získávány postupně, a pouze za nějakou cenu. Cílem je optimalizovat kompromis mezi očekávanou klasifikační chybou a celkovou cenou prvků. Pojímáme problém jako vícekriteriální sekvenční rozhodovací problém, představujeme flexibilní řešení založené na deep RL a experimentálně ukazujeme, že robustně překonává konkurenční metody. Výše uvedený přístup předpokládá, že daný algoritmus zná, jaké prvky jsou v datových vzorcích obsaženy a také, že jejich počet je fixní. To nicméně není pravda pro některé problémy z reálného světa, kde mohou být prvky vnořené, popř. obsaženy v množinách libovolné mohutnosti. V druhém tématu navrhujeme změny v dříve představené metodě tak, aby mohla přirozeně pracovat s uvedenými daty a vybírat prvky v těchto složitých strukturách. Její použití demonstrujeme na praktickém problému identifikace škodlivých webových domén, kde vede ke značným úsporám v porovnání s metodami, které nezohledňují ceny. Ačkoli lze touto metodou zpracovat data strukturovaná jako stromy, není zcela obecná, protože některé reálné problémy nelze vyjádřit tímto způsobem. Ve třetím tématu tedy navrhujeme ještě obecnější systém, který pracuje s problémy přirozeně definovanými pomocí objektů a jejich vztahů a akcí orientovaných na tyto objekty. Protože předchozí přístup nelze použít a nalezení reprezentace s fixní délkou, požadované většinou existujících RL metod, je těžké, ne-li nemožné, představujeme novou deep RL metodu založenou na grafových neuronových sítích a autoregresivní dekompozici strategie, jež s těmito problémy přirozeně pracuje a je úplně doménově nezávislá. Ukazujeme, že naše metoda umožňuje trénovat agenty, kteří vykazují impozantní schopnost generalizace přes problémy různých velikostí, a to bez dalšího trénování. Začtvrté uvádíme případovou studii v automatizovaném penetračním testování. Na základě znalostí získaných v předchozích částech navrhujeme několik agentních architektur, které generalizují do neznámých scénářů. Navíc ukazujeme, že agenti trénovaní v simulaci mohou být nasazeni v emulovaných prostředích obsahujících reálnou síťovou konektivitu, operační systémy a zranitelný software.	cze
dc.description.abstract	This thesis focuses on practical sequential information acquisition problems, i.e., problems where agents take actions sequentially, based on their current knowledge, and each step reveals a new piece of information. Many real-world problems can be framed this way, e.g., malware analysis, where an agent performs a test, and based on the result, it decides which other tests it needs, which tools to use, or whether it already has enough information to make a decision. We consecutively present four increasingly complex topics inspired by real-world problems, along with domain-independent solutions based on state-of-the-art deep reinforcement learning (RL) techniques. One of the advantages of using deep RL is that the proposed solutions can benefit from independent progress in this dynamically developing field. Within each topic, the thesis advances state-of-the-art methods, improves performance or generality, or presents novel settings. First, we explore a classification problem where samples are described by vectors of fixed dimensions, and the features are acquired sequentially, and only for a cost. The goal is to optimize the trade-off between the expected classification error and the cumulative feature cost. We frame the problem as a multi-criteria sequential decision-making problem, present a flexible deep RL-based solution, and experimentally demonstrate that it robustly outperforms competing methods. The previous approach assumes the algorithm knows which features are present in data samples, and that their number is fixed. However, this is not true for some real-world problems where features can be nested, or contained in sets of arbitrary cardinality. In the second topic, we propose changes to the formerly introduced framework, so that it can work with such data naturally and select features within these complex structures. We demonstrate its use in the practical problem of malicious web domain identification, where it leads to substantial savings, compared to cost-agnostic methods. While the method can process tree-structured data, it is not completely general, since some real-world problems cannot be represented in this way. Hence, in the third topic, we design an even more general system that works with problems that are naturally defined in terms of objects and relations, and object-centric actions. Since the previous approach is not applicable, and finding a fixed-length representation required by most existing RL methods is difficult, if not impossible, we present a novel deep RL framework based on graph neural networks and autoregressive policy decomposition that naturally works with these problems and is completely domain independent. We demonstrate that our method allows training agents that display impressive zero-shot generalization over different problem sizes. Fourth, we present a case study in automated penetration testing. Based on the knowledge gained in the previous parts, we propose several agent architectures that can generalize to unseen scenarios. Additionally, we demonstrate that agents trained in simulation can be deployed in emulated environments featuring real network connectivity, operating systems and vulnerable software.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	hluboké zpětnovazební učení	cze
dc.subject	praktické problémy se sběrem informací	cze
dc.subject	klasifikace s cennými prvky	cze
dc.subject	hierarchické učení s více instancemi	cze
dc.subject	grafické neuronové sítě	cze
dc.subject	dekompozice strategie	cze
dc.subject	automatické testování bezpečnosti	cze
dc.subject	generalizace bez dalšího učení	cze
dc.subject	deep reinforcement learning	eng
dc.subject	practical information acquisition problems	eng
dc.subject	classification with costly features	eng
dc.subject	hierarchical multiple-instance learning	eng
dc.subject	graph neural networks	eng
dc.subject	policy decomposition	eng
dc.subject	automated penetration testing	eng
dc.subject	zero-shot generalization	eng
dc.title	Aplikace hlubokého zpětnovazebního učení v praktických problémech se sekvenčním sběrem informací	cze
dc.title	Applications of Deep Reinforcement Learning in Practical Sequential Information Acquisition Problems	eng
dc.type	disertační práce	cze
dc.type	doctoral thesis	eng
dc.contributor.referee	Sinha Arunesh
theses.degree.discipline	Informatika a výpočetní technika	cze
theses.degree.grantor	katedra počítačů	cze
theses.degree.programme	Elektrotechnika a informatika	cze

Soubory tohoto záznamu

Název:: F3-D-2024-Janisch-Jaromir-dize ...
Velikost:: 3.123Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Disertační práce - 13000 [706]

Zobrazit minimální záznam