Učení v zobecněných normálních hrách se sekvenčními strategiemi

Šilhavý Prokop

No-regret Learning in Generalized Normal-Form Games with Sequential Strategies

dc.contributor.advisor	Bošanský Branislav
dc.contributor.author	Šilhavý Prokop
dc.date.accessioned	2017-06-07T13:21:23Z
dc.date.available	2017-06-07T13:21:23Z
dc.date.issued	2017-05-26
dc.identifier	KOS-587865109205
dc.identifier.uri	http://hdl.handle.net/10467/68562
dc.description.abstract	Práce formalizuje zobecněné hry v normální formě se sekvenčními strategiemi a představuje koncepty pro hledání Nashova ekvilibria v těchto hrách. Tento herní model je identický s hrami v normální formě se sekvenčními strategiemi (NFGSS), ale nemá žádná omezení na výplatní funkci. Nejprve jsme použili Nashova ekvilibria z NFGSS jako odhad řešení zobecněného NFGSS. Dále jsme hledali řešení pomocí převedení NFGSS do normální formy a následně použili standardní metody. Jako poslední přístup jsme adaptovali Monte Carlo Counterfactual regret minimization (MCCFR) přímo na zobecněné NFGSS. Všechny tyto metody jsme testovali na třech doménách: Transit game (TG), Border protection game (BPG) a Ticket inspection game (TIG). MCCFR algoritmus konverguje k Nashovu ekvilibriu v BPG a v TIG. Pro TG nám dává lepší odhad řešení než zjednodušení zobecněného NFGSS na standardní NFGSS. Škálovatelnost tohoto algoritmu není vysoká, nicméně dokážeme s jeho pomocí vyřešit větší hry než za využití běžných metod na řešení NFG. Výsledky ukazují, že MCCFR algoritmus má nejlepší výsledky ze všech tří zkoumaných přístupů, a to nejen jako algoritmus na přesné řešení NFGSS pro TIG a BPG, ale i jako heuristika pro TG.	cze
dc.description.abstract	his work formalizes generalized normal-form games with sequential strategies and finds Nash equilibria in them. This game model is the same as normal-form game with sequential strategies (NFGSS); the only difference is that there is no restriction on the utility. First, we have evaluated the solution of NFGSS in generalized NFGSS. Then we have used the transformation of generalized NFGSS to normal form (NFG) and solving it by standard methods, and finally, we adapted Monte Carlo Counterfactual regret minimization (MCCFR) algorithm for generalized NFGSS. We have tested these methods in three game domains: Transit game (TG), Border protection game (BPG), and Ticket inspection game (TIG). The MCCFR algorithm converges to Nash equilibrium in BPG and TIG, and for TG it gives as a better estimate as the approximation by NFGSS. The scalability of MCCFR is bad. However, it is faster as the standard methods for NFG. The results show that MCCFR algorithm gives the best result from these three approaches either as an exact solver in TIG and BPG or as a heuristic in TG.	eng
dc.language.iso	ENG
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	Teorie her, normální forma, sekvenční strategie, NFGSS, zobecněné NFGSS, CFR, MCCFR	cze
dc.subject	Game Theory, Normal form, Sequential strategies, NFGSS, generalized NFGSS, CFR, MCCFR	eng
dc.title	Učení v zobecněných normálních hrách se sekvenčními strategiemi	cze
dc.title	No-regret Learning in Generalized Normal-Form Games with Sequential Strategies	eng
dc.type	bakalářská práce	cze
dc.type	bachelor thesis	eng
dc.date.accepted	2017-06-20
dc.contributor.referee	Vaněk Ondřej
theses.degree.discipline	Informatika a počítačové vědy	cze
theses.degree.grantor	katedra kybernetiky	cze
theses.degree.programme	Otevřená informatika	cze

Soubory tohoto záznamu

Název:: F3-BP-2017-Silhavy-Prokop-silh ...
Velikost:: 641.5Kb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F3-BP-2017-posudek-Vanek_Ondrej.pdf
Velikost:: 62.68Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F3-BP-2017-posudek-Bosansky_Br ...
Velikost:: 576.4Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F3-BP-2017-Silhavy-Prokop-pril ...
Velikost:: 11.25Mb
Formát:: Neznámý
Popis:: PRILOHA
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Bakalářské práce - 13133 [777]

Zobrazit minimální záznam