Využití metody regularizace odměn ve hrách s neúplnou informací
Leveraging Reward Regularization in Imperfect Information Games
Type of document
bakalářská prácebachelor thesis
Author
Tomáš Holeček
Supervisor
Kubíček Ondřej
Opponent
Grus Josef
Field of study
Počítačové hry a grafikaStudy program
Otevřená informatikaInstitutions assigning rank
katedra počítačové grafiky a interakceRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Regularizace odměn se ukázala jako užitečná technika pro algoritmy posilovaného učení určené k řešení her s neúplnou informací. Jeden takový algoritmus používající tuto techniku je nedávno vyvinutý algoritmus Regularizovaná Nashova Dynamika (RNaD), který dosáhl výsledku na úrovní expertních hráčů ve hře Stratego. Studie těchto technik se zatím ale zaměřovala na dvouhráčové hry s nulovým součtem a není zřejmé, jestli tyto techniky budou užitečné i v širší skupině her jako jsou vícehráčové hry či hry bez nulového součtu. Proto je cílem práce najít obecněji použitelné rozšíření těchto technik a použít ho k upravení již existujících algorithmů pro použití v novém typu her. Efektivnost těchto úprav je ukázána na několika experimentech provedených na hrách typu pronásledování-únik. Reward regularization proved to be a powerful technique in reinforcement learning algorithms for solving imperfect information games. One such algorithm using this technique is the recently developed Regularized Nash Dynamics (RNaD), which achieved a human-expert level performance in the game Stratego. However, research about this technique has focused on two-player zero-sum games, and it is currently unknown if this technique proves useful even in a broader class of games like general-sum or multiplayer games. Hence, this work aims to devise a more generally applicable extension of these techniques and modify the developed algorithms into a new class of games. The effectiveness of these modifications is shown in several experiments on pursuit-evasion games.
Collections
- Bakalářské práce - 13139 [432]