Modely omezené racionality v algoritmu minimalizace hypotetické lítosti
Bounded Rationality Models in Counterfactual Regret Minimization
Type of document
diplomová prácemaster thesis
Author
David Milec
Supervisor
Lisý Viliam
Opponent
Černý Jakub
Field of study
Umělá inteligenceStudy program
Otevřená informatikaInstitutions assigning rank
katedra počítačůRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
V mé práci jsem se soustředil na využívání soupeřů s modelem omezené racionality, kterým je například quantal response, ve velkých extenzivních hrách s omezenou informací. Definoval jsem dva nové koncepty řešení, quantal Nash equilibrium a quantal Stackelberg equilibrium. Analyzoval jsem vlastnosti definovaných konceptů a ukázal jsem, že i v zero-sum hrách jsou nezaměnitelné. Dále jsem ukázal, že CFR-QR, což je algoritmus, který jsem testoval, se dá použít na nalezení quantal Nash equilibria pro normální i extenzivní hry. Ukázal jsem pro normální i extenzivní hry, že v nich může být více quantal Stackelberg equilibrií s různými hodnotami. Navrhl jsem algoritmus gradientního sestupu k nalezení lokálního quantal Stackelberg equilibria v normálních hrách a modifikovaný program sekvenční formy na nalezení quantal Stackelberg equilibria v extenzivních hrách. Porovnal jsem oba koncepty v tom, jak moc dokáží soupěře využít a jak moc by je dokázal využít racionální soupeř. Pro normální i extenzivní hry je quantal Stackelberg equilibrium lepší v obou aspektech. Jako poslední jsem se snažil použít dekompozici na oba algoritmy a ukázal jsem problémy, které vznikají při použití sekvenčního programu s dekompozicí. Navrhnul jsem algoritmus CFR-QR-D, který dokáže nalézt quantal Nash equulibrium strategii ale v mých testech zkonvergoval pro 99% her. In my work, I focused on exploiting quantal response opponents in big imperfect information extensive form games. I defined two new solution concepts, quantal Nash equilibrium, and quantal Stackelberg equilibrium. I analyzed properties of defined equilibria and showed that they are not interchangeable even in a zero-sum scenario. The results showed that CFR-QR, which is an algorithm that I tested, could be used to get the strategy in quantal Nash equilibrium for both normal form games and extensive form games. Obtained results indicated that in both normal form games and extensive form games, there could be multiple quantal Stackelberg equilibria with different values. I proposed a gradient descent algorithm to reach local quantal Stackelberg equilibrium in Normal form game and modified sequence form program to find quantal Stackelberg equilibrium in extensive form game. I compared both concepts in terms of how much they can exploit the quantal response adversary and how much they can be exploited by a rational opponent, and for both normal form games and extensive form games, quantal Stackelberg equilibrium is better in both aspects. Finally, I tried to apply decomposition to both algorithms, and I discussed problems that arise from a sequence program with decomposition. I proposed CFR-QR-D that can find quantal Nash equilibrium strategy, but in my tests, it converged in 99% of the games.
Collections
- Diplomové práce - 13136 [902]