Využití algoritmu Monte Carlo Tree Search pro hraní šachu

Jakub Král

Using Monte Carlo Tree Search to play chess

Typ dokumentu

bakalářská práce
bachelor thesis

Autor

Jakub Král

Vedoucí práce

Vašata Daniel

Oponent práce

Surynek Pavel

Studijní obor

Umělá inteligence 2021

Studijní program

Informatika

Instituce přidělující hodnost

katedra aplikované matematiky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Tato práce se zabývá využitím algoritmu Monte Carlo tree search a jeho kombinace s neuronovými sítěmi a hlubokým posilovaným učením pro hraní šachů. Teoretická část této práce přiblíží čtenáři posilované učení a jeho algoritmy a metodami. V praktické části byl vytvořen model, který se učí a hraje na běžném stolním počítači. Toto je řešeno pomocí konvolučních neuronových sítí, počátečním supervizovaným učením a poté učením pomocí self-play a posilovaného učení. Model, který by tyto cíle splňoval, se podařilo vytvořit, hraje však na úrovni podstatně nižší, než jakou jsem si před začátkem práce představoval.

This thesis deals with the use of the Monte Carlo tree search algorithm and its combination with neural networks and deep reinforcement learning to play chess. The theoretical part of this thesis acquaints the reader with the methods and algorithms of reinforcement learning. In the practical part a model was created such that would train and then play on a standard personal computer. This is solved by using convolutional neural networks, initial supervised learning and then reinforcement learning via self-play. A model that fulfills these requirements was created and runs, but the model plays on a level much lower than was aimed for at the beginning of this work.