Aplikace metod posilovaného učení pro sběratelské karetní hry

Marcel Petráň

Applying Reinforcement Learning Techniques to Collectible Card Games

Type of document

bakalářská práce
bachelor thesis

Author

Marcel Petráň

Supervisor

Kubíček Ondřej

Opponent

Vrba Vojtěch

Field of study

Základy umělé inteligence a počítačových věd

Study program

Otevřená informatika

Institutions assigning rank

katedra kybernetiky

Rights

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Show full item record

Abstract

V posledních letech se ukázalo, že posilované učení je velmi slibné při řešení složitých her. Tento výzkum se zabývá aplikací technik posilování učení na sběratelské karetní hry se zaměřením na Hearthstone. Použili jsme algoritmy Proximal Policy Optimization (PPO) a Advantage Actor-Critic (A2C) k trénování agentů v různých scénářích. Náš výzkum zahrnoval formulování Hearthstone ve formalismu popisující hry s nedokonalou informací, úpravu simulátoru hry Hearthstone, vývoj agentů učících se pomocí technik posilovaného učení, definování dostupných informací o stavu pro agenty, implementace více neuronových sítí pro akce, a empirické vyhodnocení výkonu agentů oproti heuristickým agentům a také proti sobě. Výsledky ukázaly, že PPO se sice dokáže naučit základní strategie a cíle hry. Naproti tomu A2C vykazoval značnou numerickou nestabilitu při učení, což jej činilo pro naše účely téměř nepoužitelným. Závěrem lze říci, že ačkoli posilovací učení vykazuje ve sběratelských karetních hrách potenciál, současné algoritmy čelí značným výzvám při dosahování nadlidského výkonu v těchto multiagentních prostředích s nedokonalými informacemi. Budoucí práce by mohla zahrnovat zkoumání sofistikovanějších algoritmů, jako je RNaD, a zdokonalování metodik trénování s cílem zvýšit výkonnost agentů.

In recent years, reinforcement learning has shown significant promise in solving complex games. This research investigates the application of reinforcement learning techniques to Collectible Card Games (CCGs), with a specific focus on Hearthstone. We have used Proximal Policy Optimisation (PPO) and Advantage Actor-Critic (A2C) algorithms to train agents in various scenarios. Our research includes formulating Hearthstone in the formalism describing imperfect information games, adjusting a Hearthstone simulator, developing reinforcement learning agents, defining the observation given to agents, implementing multiple neural networks for actions, and empirically evaluating their performance against heuristic-based agents and also against each other. The results demonstrated that the PPO was able to learn the basic strategies and objectives of the game. In contrast, the A2C exhibited significant numerical instability, rendering it nearly unusable for our purposes. In conclusion, while reinforcement learning shows potential in CCGs, current algorithms face significant challenges in achieving superhuman performance levels in these multi-agent, imperfect information environments. Future work could involve exploring more sophisticated algorithms, such as RNaD, and refining training methodologies to enhance agent performance.