Překvapivá účinnost algoritmu Monte Carlo tree search
The Surprising Effectivity of Monte Carlo Tree Search
Type of document
diplomová prácemaster thesis
Author
Josef Vonášek
Supervisor
Kovařík Vojtěch
Opponent
Gavenčiak Tomáš
Field of study
Umělá inteligenceStudy program
Otevřená informatikaInstitutions assigning rank
katedra počítačůRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Efektivita algoritmu prohledávání stromu Monte Carlo (MCTS) je v nejhorším pří-padě řádově horší, než u naivních metod hrubé síly, přičemž je známo jen málo zárukách pro specifické domény. Přesto je jeho praktická efektivita vynikající, což vedlo k jeho širokému uplatnění v teorii her. V důsledku této mezery v našich znalostech nemají (zatím) nejmodernější algoritmy, jako je AlphaZero, smysluplné výkonnostní záruky. Tato práce proto zkoumá praktickou efektivitu tohoto algoritmu v hrách Tic Tac Toe, Hex a v dalších umělých hrách a prokazujeme jeho rychlou konvergenci k optimální strategii. Navíc ukazuje, že UCT v kom-binaci s Alpha-Beta překonává tradiční Alpha-Beta algoritmus i v offline režimu. Zkoumáme toto chování a zjišťujeme, že hlavním viníkem pozorované efektivity je dobrá hodnota uniformní strategie, přičemž se ukazuje, že a) odhady hodnot jsou nejčastěji správně uspořádané, b) nesprávně uspořádané hodnoty znatelně snižují efektivitu. Zdůvodňujeme, proč tomu tak může být, a navrhujeme akumulaci výhody jako hnací sílu stojící za vynikajícími hodnotami uniformní strategie. Na umělé hře ukazujeme, že vyšší akumulace výhody zlepšuje výkon UCT, a popisujeme některé vlastnosti zjištěné v hrách Tic Tac Toe a Hex s pozitivním vlivem na tuto akumulaci. The worst-case performance of the Monte Carlo tree search (MCTS) algorithm is orders of magnitude worse than that of naive brute-force methods and not many domain-specific bounds known for it. Nonetheless, its practical performance is outstanding, leading to its widespread adoption in game solvers. As a result of this gap in our understanding, stateof-the-art algorithms such as AlphaZero generally do not (yet) have meaningful performance guarantees. To partially address this gap, we investigate the practical performance of MCTS in Tic Tac Toe, Hex and in additional artificial games, and demonstrate its fast convergence to optimal policy. Additionally, we show that when combined with Alpha-Beta pruning, MCTS outperforms the traditional AlphaBeta pruning minimax algorithm even in offline mode. We show the uniform policy value to be the major culprit behind the observed performance, demonstrating that a) the value estimates are most often correctly ordered, b) incorrectly ordered values reduce performance noticeably. We propose advantage accumulation as the driving force behind the high quality of uniform policy estimates. We show in artificial games that higher advantage accumulation improves the UCT performance and describe some of the properties found in Tic Tac Toe and Hex with positive effect on said accumulation.
Collections
- Diplomové práce - 13136 [902]