Modely omezené racionality v algoritmu minimalizace hypotetické lítosti

David Milec

Bounded Rationality Models in Counterfactual Regret Minimization

dc.contributor.advisor	Lisý Viliam
dc.contributor.author	David Milec
dc.date.accessioned	2019-06-13T22:53:16Z
dc.date.available	2019-06-13T22:53:16Z
dc.date.issued	2019-06-13
dc.identifier	KOS-860412721405
dc.identifier.uri	http://hdl.handle.net/10467/83076
dc.description.abstract	V mé práci jsem se soustředil na využívání soupeřů s modelem omezené racionality, kterým je například quantal response, ve velkých extenzivních hrách s omezenou informací. Definoval jsem dva nové koncepty řešení, quantal Nash equilibrium a quantal Stackelberg equilibrium. Analyzoval jsem vlastnosti definovaných konceptů a ukázal jsem, že i v zero-sum hrách jsou nezaměnitelné. Dále jsem ukázal, že CFR-QR, což je algoritmus, který jsem testoval, se dá použít na nalezení quantal Nash equilibria pro normální i extenzivní hry. Ukázal jsem pro normální i extenzivní hry, že v nich může být více quantal Stackelberg equilibrií s různými hodnotami. Navrhl jsem algoritmus gradientního sestupu k nalezení lokálního quantal Stackelberg equilibria v normálních hrách a modifikovaný program sekvenční formy na nalezení quantal Stackelberg equilibria v extenzivních hrách. Porovnal jsem oba koncepty v tom, jak moc dokáží soupěře využít a jak moc by je dokázal využít racionální soupeř. Pro normální i extenzivní hry je quantal Stackelberg equilibrium lepší v obou aspektech. Jako poslední jsem se snažil použít dekompozici na oba algoritmy a ukázal jsem problémy, které vznikají při použití sekvenčního programu s dekompozicí. Navrhnul jsem algoritmus CFR-QR-D, který dokáže nalézt quantal Nash equulibrium strategii ale v mých testech zkonvergoval pro 99% her.	cze
dc.description.abstract	In my work, I focused on exploiting quantal response opponents in big imperfect information extensive form games. I defined two new solution concepts, quantal Nash equilibrium, and quantal Stackelberg equilibrium. I analyzed properties of defined equilibria and showed that they are not interchangeable even in a zero-sum scenario. The results showed that CFR-QR, which is an algorithm that I tested, could be used to get the strategy in quantal Nash equilibrium for both normal form games and extensive form games. Obtained results indicated that in both normal form games and extensive form games, there could be multiple quantal Stackelberg equilibria with different values. I proposed a gradient descent algorithm to reach local quantal Stackelberg equilibrium in Normal form game and modified sequence form program to find quantal Stackelberg equilibrium in extensive form game. I compared both concepts in terms of how much they can exploit the quantal response adversary and how much they can be exploited by a rational opponent, and for both normal form games and extensive form games, quantal Stackelberg equilibrium is better in both aspects. Finally, I tried to apply decomposition to both algorithms, and I discussed problems that arise from a sequence program with decomposition. I proposed CFR-QR-D that can find quantal Nash equilibrium strategy, but in my tests, it converged in 99% of the games.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	teorie her	cze
dc.subject	efg	cze
dc.subject	nfg	cze
dc.subject	neúplná informace	cze
dc.subject	dekompozice	cze
dc.subject	CFR	cze
dc.subject	game theory	eng
dc.subject	efg	eng
dc.subject	nfg	eng
dc.subject	imperfect information	eng
dc.subject	decomposition	eng
dc.subject	CFR	eng
dc.title	Modely omezené racionality v algoritmu minimalizace hypotetické lítosti	cze
dc.title	Bounded Rationality Models in Counterfactual Regret Minimization	eng
dc.type	diplomová práce	cze
dc.type	master thesis	eng
dc.contributor.referee	Černý Jakub
theses.degree.discipline	Umělá inteligence	cze
theses.degree.grantor	katedra počítačů	cze
theses.degree.programme	Otevřená informatika	cze

Soubory tohoto záznamu

Název:: F3-DP-2019-Milec-David-thesis.pdf
Velikost:: 2.222Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F3-DP-2019-Milec-David-priloha ...
Velikost:: 21.78Mb
Formát:: Neznámý
Popis:: PRILOHA
: Zobrazit/otevřít

Název:: F3-DP-2019-posudek-Lisy_Viliam.pdf
Velikost:: 212.0Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F3-DP-2019-posudek-Cerny_Jakub.pdf
Velikost:: 468.9Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Diplomové práce - 13136 [902]

Zobrazit minimální záznam