Překvapivá účinnost algoritmu Monte Carlo tree search

Josef Vonášek

The Surprising Effectivity of Monte Carlo Tree Search

dc.contributor.advisor	Kovařík Vojtěch
dc.contributor.author	Josef Vonášek
dc.date.accessioned	2022-01-20T09:51:19Z
dc.date.available	2022-01-20T09:51:19Z
dc.date.issued	2022-01-18
dc.identifier	KOS-960815831805
dc.identifier.uri	http://hdl.handle.net/10467/99113
dc.description.abstract	Efektivita algoritmu prohledávání stromu Monte Carlo (MCTS) je v nejhorším pří-padě řádově horší, než u naivních metod hrubé síly, přičemž je známo jen málo zárukách pro specifické domény. Přesto je jeho praktická efektivita vynikající, což vedlo k jeho širokému uplatnění v teorii her. V důsledku této mezery v našich znalostech nemají (zatím) nejmodernější algoritmy, jako je AlphaZero, smysluplné výkonnostní záruky. Tato práce proto zkoumá praktickou efektivitu tohoto algoritmu v hrách Tic Tac Toe, Hex a v dalších umělých hrách a prokazujeme jeho rychlou konvergenci k optimální strategii. Navíc ukazuje, že UCT v kom-binaci s Alpha-Beta překonává tradiční Alpha-Beta algoritmus i v offline režimu. Zkoumáme toto chování a zjišťujeme, že hlavním viníkem pozorované efektivity je dobrá hodnota uniformní strategie, přičemž se ukazuje, že a) odhady hodnot jsou nejčastěji správně uspořádané, b) nesprávně uspořádané hodnoty znatelně snižují efektivitu. Zdůvodňujeme, proč tomu tak může být, a navrhujeme akumulaci výhody jako hnací sílu stojící za vynikajícími hodnotami uniformní strategie. Na umělé hře ukazujeme, že vyšší akumulace výhody zlepšuje výkon UCT, a popisujeme některé vlastnosti zjištěné v hrách Tic Tac Toe a Hex s pozitivním vlivem na tuto akumulaci.	cze
dc.description.abstract	The worst-case performance of the Monte Carlo tree search (MCTS) algorithm is orders of magnitude worse than that of naive brute-force methods and not many domain-specific bounds known for it. Nonetheless, its practical performance is outstanding, leading to its widespread adoption in game solvers. As a result of this gap in our understanding, stateof-the-art algorithms such as AlphaZero generally do not (yet) have meaningful performance guarantees. To partially address this gap, we investigate the practical performance of MCTS in Tic Tac Toe, Hex and in additional artificial games, and demonstrate its fast convergence to optimal policy. Additionally, we show that when combined with Alpha-Beta pruning, MCTS outperforms the traditional AlphaBeta pruning minimax algorithm even in offline mode. We show the uniform policy value to be the major culprit behind the observed performance, demonstrating that a) the value estimates are most often correctly ordered, b) incorrectly ordered values reduce performance noticeably. We propose advantage accumulation as the driving force behind the high quality of uniform policy estimates. We show in artificial games that higher advantage accumulation improves the UCT performance and describe some of the properties found in Tic Tac Toe and Hex with positive effect on said accumulation.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	Teorie her	cze
dc.subject	MCTS	cze
dc.subject	UCT	cze
dc.subject	Efektivita	cze
dc.subject	Game Theory	eng
dc.subject	MCTS	eng
dc.subject	UCT	eng
dc.subject	Effectivity	eng
dc.title	Překvapivá účinnost algoritmu Monte Carlo tree search	cze
dc.title	The Surprising Effectivity of Monte Carlo Tree Search	eng
dc.type	diplomová práce	cze
dc.type	master thesis	eng
dc.contributor.referee	Gavenčiak Tomáš
theses.degree.discipline	Umělá inteligence	cze
theses.degree.grantor	katedra počítačů	cze
theses.degree.programme	Otevřená informatika	cze

Soubory tohoto záznamu

Název:: F3-DP-2022-Vonasek-Josef-prilo ...
Velikost:: 182.5Kb
Formát:: Neznámý
Popis:: PRILOHA
: Zobrazit/otevřít

Název:: F3-DP-2022-Vonasek-Josef-MCTS.pdf
Velikost:: 2.301Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F3-DP-2022-posudek-Kovarik_Voj ...
Velikost:: 265.4Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F3-DP-2022-posudek-Gavenciak_T ...
Velikost:: 296.6Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Diplomové práce - 13136 [892]

Zobrazit minimální záznam