Redukce variance v jednostranně pozorovatelných stochastických hrách

Ondřej Kubíček

Variance Reduction in One-Sided Partially Observable Stochastic Games

Typ dokumentu

diplomová práce
master thesis

Autor

Ondřej Kubíček

Vedoucí práce

Bošanský Branislav

Oponent práce

Čermák Jiří

Studijní obor

Umělá inteligence

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra počítačů

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Hledání téměř optimálních strategií ve hrách s neúplnou informací není obecně jednoduché. Posilované učení lze použít pro hledání přibližných řešení v takto složitých hrách. Tyto metody jsou zatíženy nezanedbatelným rozptylem, který je způsobený vzorkováním herního stromu. Několik metod pro snižovaní rozptylu bylo vytvořeno, aby došlo k jeho snížení a tím ke zrychlení algoritmů posilovaného učení. V této práci se snažíme ukázat jak jedna hodnotová funkce ovlivňuje rozptyl ve stochastických hrách. Dále zkoumáme jak dvě hodnotové funkce, použité jako dolní a horní odhad, ovlivňují rozptyl ve stochastických hrách pro dva hráče a jednostranných částečně pozorovatelných stochastických hrách. Dále představujeme nový způsob pro řešení stochastických her pro dva hráče se simultánními pohyby a pro řešení jednostranných částečně pozorovatelných stochastických her pomocí minimalizace lítosti. Také představujeme vylepšenou verzi ekvilibria kvantové odpovědi pro řešení těchto her. Tyto přibližné metody na aproximace Nashova ekvilibra tvoří dodatečné chyby při výpočtech. Empiricky odhadujeme rozptyl, který tyto metody tvoří a zkoušíme jak jednotlivé techniky redukce rozptylu ovlivňují celkovou konvergenci algoritmů.

Finding near-optimal strategies in imperfect information games is generally intractable. Reinforcement learning is used to find approximate solutions in such complicated games. These methods often deal with significant variance caused by a sampling of the game tree. Multiple variance reduction techniques were developed to reduce the variance and speed up the convergence of reinforcement learning algorithms. In this work, we show the effect of a single value function on variance in stochastic games. Furthermore, we investigate how two value functions, used as a lower and upper bound, affect variance in two-player stochastic games with simultaneous moves and one-sided partially observable stochastic games. We introduce a new way to solve two-player stochastic games with simultaneous moves and one-sided partially observable stochastic games by regret minimization. We also refine the quantal response equilibrium method for solving these games. These different methods of approximating Nash equilibria introduce additional errors into the computation. We also empirically estimate the variance introduced by these errors and test if variance reduction techniques improve the overall convergence of the algorithms.