Řešení nediskontovaných jednostranně částečně pozorovatelných stochastických her
Solving Undiscounted One-Sided Partially Observable Stochastic Games
Typ dokumentu
disertační prácedoctoral thesis
Autor
Petr Tomášek
Vedoucí práce
Bošanský Branislav
Oponent práce
Fang Fei
Studijní obor
Informatika - Katedra počítačůStudijní program
InformatikaInstituce přidělující hodnost
katedra počítačůPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
V reálném světě často pozorujeme dynamické interakce mezi agenty, kde jsou rozhodnutí jednoho agenta ovlivněna chováním ostatních agentů.Tyto situace lze modelovat jako částečně pozorovatelné stochastické hry (Partially Observable Stochastic Games, POSGs), jejichž varianty s nulovým součtem zachycují striktně kompetitivní interakce.Zatímco tyto modely řeší širokou škálu problémů, pracují obvykle se scénáři s nekonečným horizontem a diskontovaným součtem výplat.Pokud však délka interakce přímo neovlivňuje výplaty hráčů, může použití diskontovaného součtu vést k neoptimálním řešením.V této práci se zaměřujeme na hry s nediskontovaným součtem výplat (undiscounted objective), kde každá realizace hry končí po určitém počtu tahů, ať už známém (konečný horizont), nebo neznámém (neurčitý horizont).Řešení POSGs má vysokou výpočetní složitost, omezujeme se proto pouze na hry s jednostrannou částečnou pozorovatelností (One-Sided Partially Observable Stochastic Games, OS-POSGs), kde pouze jeden hráč má částečnou informaci o aktuálním stavu, zatímco jeho soupeř má informaci úplnou.Primárně se soustředíme na podtřídu OS-POSGs s neurčitým horizontem, která představuje rozšíření stochastických her s nejkratší cestou (Stochastic Shortest Path Games, SSPGs) do prostředí s neúplnou informací.V souladu s názvoslovím pro problémy s nejkratšími cestami označujeme tuto podtřídu jako částečně pozorovatelné stochastické hry s nejkratší cestou (Partially Observable Stochastic Shortest Path Games, POSSPGs). V práci představujeme dva nové algoritmy pro řešení POSSPGs založené na algoritmu HSVI. Představené algoritmy iterativně řeší sekvence snáze řešitelných aproximací původní hry s využitím dvou odlišných způsobů konstrukce těchto sekvencí: (1) omezení počtu tahů během nichž hráči mohou měnit své akce a postupné zvyšování tohoto počtu tahů a (2) řešení diskontované aproximace původní hry a postupné zvyšování uvažovaného diskontního faktoru.Pro prezentované algoritmy poskytujeme teoretické záruky jejich kvality a experimentálně ukazujeme, že jsou schopny nalézt téměř optimální řešení ve hrách s pronásledováním a únikem (pursuit-evasion games) a hrách modelujících problém eskalace oprávnění (privilege escalation problem) z oblasti kybernetické bezpečnosti.Problémy s velmi dlouhým (neurčitým) horizontem mají často extrémně rozsáhlé stavové prostory (např. oblast bezpečnosti).S extrémní velikostí stavových prostorů roste dimenze reprezentace problémů a mnoho algoritmů (zejména těch používajících koncept funkce hodnot, např. HSVI) se tak stává nepoužitelnými pro řešení problémů z reálného světa.U jednohráčových problémů se obvykle využívá redukce stavového/probabilistického prostoru pomocí projekce z vícedimenzionálního prostoru do prostoru s nižší dimenzí.V této práci rozvíjíme obdobný přístup pro OS-POSGs nazývaný kompaktní reprezentace (compact representation), který lze kombinovat s HSVI (tj. jádrem námi navržených algoritmů pro POSSPGs).Představujeme aplikaci HSVI s kompaktní reprezentací na dvou problémech s konečným horizontem z oblasti bezpečnosti bezpečnostní hry se sekvenčními útoky (security games with sequential attacks, SGSAs) a POSGs s laterálním pohybem (lateral movement POSGs) doplněné o experimentální vyhodnocení ukazující, že HSVI s kompaktní reprezentací je schopno nalézt vysoce kvalitní strategie a škálovat na větší scénáře oproti současným přístupům. Real-world scenarios often involve dynamic interactions among competing agents, where decisions are made considering actions taken by others. These situations can be modeled as partially observable stochastic games (POSGs), with zero-sum variants capturing strictly competitive interactions (e.g., security scenarios). While such models address a wide range of problems, they commonly focus on infinite-horizon scenarios with discounted-sum objectives.Using the discounted-sum objective, however, can lead to suboptimal solutions in cases where the length of the interaction does not directly affect players' rewards.We focus on games with undiscounted objective where every realization of the game is guaranteed to terminate after some number of turns that is either known (finite horizon) or unknown (indefinite horizon).To manage the computational complexity of solving POSGs, we restrict ourselves to games with one-sided partial observability where only one player has imperfect information while their opponent is provided with complete information (i.e., one-sided partially observable stochastic games -- OS-POSGs).Primarily, we focus on a subclass of OS-POSGs with an indefinite horizon representing an extension of stochastic shortest path games (SSPGs) to imperfect information setting.Following the naming conventions for stochastic shortest path problems, we term this subclass Partially Observable Stochastic Shortest Path Games (POSSPGs). We introduce two novel algorithms for solving POSSPGs based on the state-of-the-art method for solving OS-POSGs -- the heuristic search value iteration (HSVI) algorithm.These algorithms iteratively solve sequences of easier-to-solve approximations of the game using fundamentally different approaches for constructing these sequences: (1) based on the limited number of turns in which players can change their actions while iteratively increasing the assumed number of turns, and (2) based on the discounted approximation of the original game while iteratively increasing the assumed discount factor.We provide theoretical qualitative guarantees for these algorithms and we also experimentally demonstrate that they are able to find near-optimal solutions on pursuit-evasion games and games modeling a privilege escalation problem from computer security.Problems with a very long (indefinite) horizon often tend to have extremely large state spaces as well (e.g., problems from the security domain).Extreme state-space sizes directly affect the dimensionality of problem representations, making many algorithms (especially those that use the concept of value function, like HSVI) unusable for solving problems of real-world sizes.For single-agent problems, the typical way is to reduce the state/belief spaces through a projection from a higher-dimensional space to a lower-dimensional one.In our work, we expand on a similar approach for OS-POSGs called compact representation that can be combined with HSVI (which is the core of our proposed algorithms for solving POSSPGs).We present the application of compact representation HSVI on two (finite horizon) security domain problems (security games with sequential attacks -- SGSAs, and lateral movement POSGs), accompanied with experimental evaluation showing that compact representation HSVI is capable of finding high-quality strategies while scaling to larger scenarios compared to the state-of-the-art approaches.
Zobrazit/ otevřít
Kolekce
- Disertační práce - 13000 [752]