Bounded Rationality Models in Counterfactual Regret Minimization

Modely omezené racionality v algoritmu minimalizace hypotetické lítosti

Supervisors

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Date of defense

Research Projects

Organizational Units

Journal Issue

Abstract

V mé práci jsem se soustředil na využívání soupeřů s modelem omezené racionality, kterým je například quantal response, ve velkých extenzivních hrách s omezenou informací. Definoval jsem dva nové koncepty řešení, quantal Nash equilibrium a quantal Stackelberg equilibrium. Analyzoval jsem vlastnosti definovaných konceptů a ukázal jsem, že i v zero-sum hrách jsou nezaměnitelné. Dále jsem ukázal, že CFR-QR, což je algoritmus, který jsem testoval, se dá použít na nalezení quantal Nash equilibria pro normální i extenzivní hry. Ukázal jsem pro normální i extenzivní hry, že v nich může být více quantal Stackelberg equilibrií s různými hodnotami. Navrhl jsem algoritmus gradientního sestupu k nalezení lokálního quantal Stackelberg equilibria v normálních hrách a modifikovaný program sekvenční formy na nalezení quantal Stackelberg equilibria v extenzivních hrách. Porovnal jsem oba koncepty v tom, jak moc dokáží soupěře využít a jak moc by je dokázal využít racionální soupeř. Pro normální i extenzivní hry je quantal Stackelberg equilibrium lepší v obou aspektech. Jako poslední jsem se snažil použít dekompozici na oba algoritmy a ukázal jsem problémy, které vznikají při použití sekvenčního programu s dekompozicí. Navrhnul jsem algoritmus CFR-QR-D, který dokáže nalézt quantal Nash equulibrium strategii ale v mých testech zkonvergoval pro 99% her.

In my work, I focused on exploiting quantal response opponents in big imperfect information extensive form games. I defined two new solution concepts, quantal Nash equilibrium, and quantal Stackelberg equilibrium. I analyzed properties of defined equilibria and showed that they are not interchangeable even in a zero-sum scenario. The results showed that CFR-QR, which is an algorithm that I tested, could be used to get the strategy in quantal Nash equilibrium for both normal form games and extensive form games. Obtained results indicated that in both normal form games and extensive form games, there could be multiple quantal Stackelberg equilibria with different values. I proposed a gradient descent algorithm to reach local quantal Stackelberg equilibrium in Normal form game and modified sequence form program to find quantal Stackelberg equilibrium in extensive form game. I compared both concepts in terms of how much they can exploit the quantal response adversary and how much they can be exploited by a rational opponent, and for both normal form games and extensive form games, quantal Stackelberg equilibrium is better in both aspects. Finally, I tried to apply decomposition to both algorithms, and I discussed problems that arise from a sequence program with decomposition. I proposed CFR-QR-D that can find quantal Nash equilibrium strategy, but in my tests, it converged in 99% of the games.

Description

Citation

Underlying research data set URL

Rights/License

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

Endorsement

Review

Supplemented By

Referenced By