Učení v zobecněných normálních hrách se sekvenčními strategiemi

Šilhavý Prokop

No-regret Learning in Generalized Normal-Form Games with Sequential Strategies

Typ dokumentu

bakalářská práce
bachelor thesis

Autor

Šilhavý Prokop

Vedoucí práce

Bošanský Branislav

Oponent práce

Vaněk Ondřej

Studijní obor

Informatika a počítačové vědy

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra kybernetiky

Obhájeno

2017-06-20

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Práce formalizuje zobecněné hry v normální formě se sekvenčními strategiemi a představuje koncepty pro hledání Nashova ekvilibria v těchto hrách. Tento herní model je identický s hrami v normální formě se sekvenčními strategiemi (NFGSS), ale nemá žádná omezení na výplatní funkci. Nejprve jsme použili Nashova ekvilibria z NFGSS jako odhad řešení zobecněného NFGSS. Dále jsme hledali řešení pomocí převedení NFGSS do normální formy a následně použili standardní metody. Jako poslední přístup jsme adaptovali Monte Carlo Counterfactual regret minimization (MCCFR) přímo na zobecněné NFGSS. Všechny tyto metody jsme testovali na třech doménách: Transit game (TG), Border protection game (BPG) a Ticket inspection game (TIG). MCCFR algoritmus konverguje k Nashovu ekvilibriu v BPG a v TIG. Pro TG nám dává lepší odhad řešení než zjednodušení zobecněného NFGSS na standardní NFGSS. Škálovatelnost tohoto algoritmu není vysoká, nicméně dokážeme s jeho pomocí vyřešit větší hry než za využití běžných metod na řešení NFG. Výsledky ukazují, že MCCFR algoritmus má nejlepší výsledky ze všech tří zkoumaných přístupů, a to nejen jako algoritmus na přesné řešení NFGSS pro TIG a BPG, ale i jako heuristika pro TG.

his work formalizes generalized normal-form games with sequential strategies and finds Nash equilibria in them. This game model is the same as normal-form game with sequential strategies (NFGSS); the only difference is that there is no restriction on the utility. First, we have evaluated the solution of NFGSS in generalized NFGSS. Then we have used the transformation of generalized NFGSS to normal form (NFG) and solving it by standard methods, and finally, we adapted Monte Carlo Counterfactual regret minimization (MCCFR) algorithm for generalized NFGSS. We have tested these methods in three game domains: Transit game (TG), Border protection game (BPG), and Ticket inspection game (TIG). The MCCFR algorithm converges to Nash equilibrium in BPG and TIG, and for TG it gives as a better estimate as the approximation by NFGSS. The scalability of MCCFR is bad. However, it is faster as the standard methods for NFG. The results show that MCCFR algorithm gives the best result from these three approaches either as an exact solver in TIG and BPG or as a heuristic in TG.