Zobrazit minimální záznam

The Surprising Effectivity of Monte Carlo Tree Search



dc.contributor.advisorKovařík Vojtěch
dc.contributor.authorJosef Vonášek
dc.date.accessioned2022-01-20T09:51:19Z
dc.date.available2022-01-20T09:51:19Z
dc.date.issued2022-01-18
dc.identifierKOS-960815831805
dc.identifier.urihttp://hdl.handle.net/10467/99113
dc.description.abstractEfektivita algoritmu prohledávání stromu Monte Carlo (MCTS) je v nejhorším pří-padě řádově horší, než u naivních metod hrubé síly, přičemž je známo jen málo zárukách pro specifické domény. Přesto je jeho praktická efektivita vynikající, což vedlo k jeho širokému uplatnění v teorii her. V důsledku této mezery v našich znalostech nemají (zatím) nejmodernější algoritmy, jako je AlphaZero, smysluplné výkonnostní záruky. Tato práce proto zkoumá praktickou efektivitu tohoto algoritmu v hrách Tic Tac Toe, Hex a v dalších umělých hrách a prokazujeme jeho rychlou konvergenci k optimální strategii. Navíc ukazuje, že UCT v kom-binaci s Alpha-Beta překonává tradiční Alpha-Beta algoritmus i v offline režimu. Zkoumáme toto chování a zjišťujeme, že hlavním viníkem pozorované efektivity je dobrá hodnota uniformní strategie, přičemž se ukazuje, že a) odhady hodnot jsou nejčastěji správně uspořádané, b) nesprávně uspořádané hodnoty znatelně snižují efektivitu. Zdůvodňujeme, proč tomu tak může být, a navrhujeme akumulaci výhody jako hnací sílu stojící za vynikajícími hodnotami uniformní strategie. Na umělé hře ukazujeme, že vyšší akumulace výhody zlepšuje výkon UCT, a popisujeme některé vlastnosti zjištěné v hrách Tic Tac Toe a Hex s pozitivním vlivem na tuto akumulaci.cze
dc.description.abstractThe worst-case performance of the Monte Carlo tree search (MCTS) algorithm is orders of magnitude worse than that of naive brute-force methods and not many domain-specific bounds known for it. Nonetheless, its practical performance is outstanding, leading to its widespread adoption in game solvers. As a result of this gap in our understanding, stateof-the-art algorithms such as AlphaZero generally do not (yet) have meaningful performance guarantees. To partially address this gap, we investigate the practical performance of MCTS in Tic Tac Toe, Hex and in additional artificial games, and demonstrate its fast convergence to optimal policy. Additionally, we show that when combined with Alpha-Beta pruning, MCTS outperforms the traditional AlphaBeta pruning minimax algorithm even in offline mode. We show the uniform policy value to be the major culprit behind the observed performance, demonstrating that a) the value estimates are most often correctly ordered, b) incorrectly ordered values reduce performance noticeably. We propose advantage accumulation as the driving force behind the high quality of uniform policy estimates. We show in artificial games that higher advantage accumulation improves the UCT performance and describe some of the properties found in Tic Tac Toe and Hex with positive effect on said accumulation.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectTeorie hercze
dc.subjectMCTScze
dc.subjectUCTcze
dc.subjectEfektivitacze
dc.subjectGame Theoryeng
dc.subjectMCTSeng
dc.subjectUCTeng
dc.subjectEffectivityeng
dc.titlePřekvapivá účinnost algoritmu Monte Carlo tree searchcze
dc.titleThe Surprising Effectivity of Monte Carlo Tree Searcheng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.contributor.refereeGavenčiak Tomáš
theses.degree.disciplineUmělá inteligencecze
theses.degree.grantorkatedra počítačůcze
theses.degree.programmeOtevřená informatikacze


Soubory tohoto záznamu





Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam