Zobrazit minimální záznam

Comparing Exploration Methods in Partially Observable Stochastic Games



dc.contributor.advisorBošanský Branislav
dc.contributor.authorJakub Rada
dc.date.accessioned2022-06-07T22:52:24Z
dc.date.available2022-06-07T22:52:24Z
dc.date.issued2022-06-07
dc.identifierKOS-1062775544005
dc.identifier.urihttp://hdl.handle.net/10467/101325
dc.description.abstractČástečně pozorovatelné stochastické hry modelují mnoho reálných situací skládající se ze dvou nezávislých agentů. Jejich podtřídu jednostranných her lze přibližně vyřešit algoritmem HSVI, který pomocí dvou value funkcí, jedné spodní a jedné horní meze, odhaduje optimální value funkci hry. V každé iteraci se aplikuje Bellmanův operátor na obě meze, který aktualizuje jejich hodnotu v bodech, které byly vybrány heuristickou funkcí. Nicméně, není dokázáno, že tento heuristický přístup, který je založený na strategiích obou hráčů a velikosti mezety mezi mezními funkcemi, je optimální metodou explorace pro prohledávání prostoru bodů beliefu. Mnohorucí bandité jsou algoritmy používané v posilovaném učení, které řeší problém vyvažování explorace a exploitace. Je tedy možné použít tyto mnohoruké bandity jako alternativní způsob prohledávání prostoru bodů beliefu a tím zlepšovat meze HSVI algoritmu. Mnohorucí bandité mohou také zajistit podobný alternativní přístup k řešení fázových her v plně pozorovatelných stochastických hrách řešených metodou iterace hodnoty. Navíc, použití banditů eliminuje použití metod lineárního programování, které mohou způsobovat špatnou škálovatelnost původních algoritmů. Cílem této práce byla integrace tohoto nového přístupu explorace do iterace hodnoty a HSVI a porovnání některých mnohorukých banditů na plně i částečně pozorovatelných stochastických hrách.cze
dc.description.abstractThe partially observable stochastic games model many situations consisting of two independent agents. Their one-sided subclass can be approximately solved by the HSVI algorithm, which estimates the optimal value function with lower and upper bound value functions. The approximation is refined by iteratively performing Bellman-style point-based updates on both bounding value functions in belief-points selected by a heuristic approach. However, this heuristic based on the strategies of both players and the gap between the bounding functions is not proven to be the optimal exploration method for searching the space of belief-points. In reinforcement learning, multi-armed bandit algorithms are a tool for solving the exploration-exploitation problem. It is thus possible to use the bandits as an alternative approach for exploring the belief-point search space and refine the bounds in the HSVI algorithm. Additionally, the multi-armed bandits can provide similar alternative approach for solving stage games in the value iteration algorithm for the fully observable stochastic games. Moreover, the need of linear programming is thus eliminated, which could lead to improved scalability. The goals of this thesis were the integration of this novel exploration method into the existing solving algorithms and comparing subset of the multi-armed bandit algorithms on both SGs and OS-POSGs.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectteorie hercze
dc.subjectstochastické hrycze
dc.subjectčástečně pozorovatelné stochastické hrycze
dc.subjectproblém mnohorukého banditycze
dc.subjectvalue iterationcze
dc.subjecthsvicze
dc.subjectgame theoryeng
dc.subjectstochastic gameseng
dc.subjectpartially observable stochastic gameseng
dc.subjectmulti-armed banditseng
dc.subjectvalue iterationeng
dc.subjecthsvieng
dc.titlePorovnání metod explorace v částečně pozorovatelných stochastických hráchcze
dc.titleComparing Exploration Methods in Partially Observable Stochastic Gameseng
dc.typebakalářská prácecze
dc.typebachelor thesiseng
dc.contributor.refereeŠír Gustav
theses.degree.disciplineZáklady umělé inteligence a počítačových vědcze
theses.degree.grantorkatedra kybernetikycze
theses.degree.programmeOtevřená informatikacze


Soubory tohoto záznamu






Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam