Učení se strategií ve stochastických hrách s nulovým součtem

Futschik David

Learning Strategies in Stochastic Zero-Sum Games

Typ dokumentu

bakalářská práce
bachelor thesis

Autor

Futschik David

Vedoucí práce

Bošanský Branislav

Oponent práce

Hrstka Ondřej

Studijní obor

Informatika a počítačové vědy

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra kybernetiky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf

Metadata

Zobrazit celý záznam

Abstrakt

Dvouhráčové nekonečné stochastické hry s nulovým součtem a ohodnocením v koncových stavech jsou důležitým typem her s velkým počtem aplikací, ale jedná se o méně studovanou třídu her. Z tohoto důvodu neexistuje mnoho praktických algoritmů pro jejich řešení. Standardní algoritmy používají iteraci hodnot nebo strategií, ovšem tyto algoritmy mohou v nejhorším případě potřebovat až dvojitě exponenciální počet iterací. Proto hledáme algoritmy s lepší složitostí, nebo alespoň metody vylepšení stávajících algoritmů. První část práce vysvětluje základní pojmy teorie her se zaměřením na řešení her. Následně jsou popsány stochastické hry a standardní postupy při jejich řešení. Abychom mohli aplikovat postupy používané při řešení konečných sekvenčních her, zavádíme pojem serializace stochastických her. Poskytneme algoritmus pro řešení stochastických her založený na kombinaci prvotního odhadu hodnot s hodnotovou iterací. Nakonec provedeme experimentální porovnání nových algoritmů s existujícím algoritmem hodnotové iterace na sadě konkrétních her.

Two-player zero-sum stochastic games with utilities in terminal nodes is an important class of games with many applications, but one that has not been studied in great depth. As such, there are not many practical algorithms for solving this class of games. The two standard algorithms are value iteration and strategy iteration. However, these algorithms have doubly exponential worst case complexity in number of iterations. Therefore, we are searching for algorithms with lower complexity or methods of improving existing algorithms' performance. First, we explain the most essential basics of game theory with focus on solving games. Then, we describe stochastic games and the standard approaches to solving them. To be able to apply algorithms used in finite sequential games, we introduce the concept of serialization of stochastic games into finite sequential games. We present an algorithm for solving stochastic games based on value estimation combined with value iteration. Lastly, we experimentally compare performance of novel algorithms to the existing value iteration algorithm on a collection of example games.