Učení v zobecněných normálních hrách se sekvenčními strategiemi
No-regret Learning in Generalized Normal-Form Games with Sequential Strategies
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Šilhavý Prokop
Vedoucí práce
Bošanský Branislav
Oponent práce
Vaněk Ondřej
Studijní obor
Informatika a počítačové vědyStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra kybernetikyObhájeno
2017-06-20Práva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Práce formalizuje zobecněné hry v normální formě se sekvenčními strategiemi a představuje koncepty pro hledání Nashova ekvilibria v těchto hrách. Tento herní model je identický s hrami v normální formě se sekvenčními strategiemi (NFGSS), ale nemá žádná omezení na výplatní funkci. Nejprve jsme použili Nashova ekvilibria z NFGSS jako odhad řešení zobecněného NFGSS. Dále jsme hledali řešení pomocí převedení NFGSS do normální formy a následně použili standardní metody. Jako poslední přístup jsme adaptovali Monte Carlo Counterfactual regret minimization (MCCFR) přímo na zobecněné NFGSS. Všechny tyto metody jsme testovali na třech doménách: Transit game (TG), Border protection game (BPG) a Ticket inspection game (TIG). MCCFR algoritmus konverguje k Nashovu ekvilibriu v BPG a v TIG. Pro TG nám dává lepší odhad řešení než zjednodušení zobecněného NFGSS na standardní NFGSS. Škálovatelnost tohoto algoritmu není vysoká, nicméně dokážeme s jeho pomocí vyřešit větší hry než za využití běžných metod na řešení NFG. Výsledky ukazují, že MCCFR algoritmus má nejlepší výsledky ze všech tří zkoumaných přístupů, a to nejen jako algoritmus na přesné řešení NFGSS pro TIG a BPG, ale i jako heuristika pro TG. his work formalizes generalized normal-form games with sequential strategies and finds Nash equilibria in them. This game model is the same as normal-form game with sequential strategies (NFGSS); the only difference is that there is no restriction on the utility. First, we have evaluated the solution of NFGSS in generalized NFGSS. Then we have used the transformation of generalized NFGSS to normal form (NFG) and solving it by standard methods, and finally, we adapted Monte Carlo Counterfactual regret minimization (MCCFR) algorithm for generalized NFGSS. We have tested these methods in three game domains: Transit game (TG), Border protection game (BPG), and Ticket inspection game (TIG). The MCCFR algorithm converges to Nash equilibrium in BPG and TIG, and for TG it gives as a better estimate as the approximation by NFGSS. The scalability of MCCFR is bad. However, it is faster as the standard methods for NFG. The results show that MCCFR algorithm gives the best result from these three approaches either as an exact solver in TIG and BPG or as a heuristic in TG.
Kolekce
- Bakalářské práce - 13133 [778]