Aplikace metod posilovaného učení pro sběratelské karetní hry

V posledních letech se ukázalo, že posilované učení je velmi slibné při řešení složitých her. Tento výzkum se zabývá aplikací technik posilování učení na sběratelské karetní hry se zaměřením na Hearthstone. Použili jsme algoritmy Proximal Policy Optimization (PPO) a Advantage Actor-Critic (A2C) k trénování agentů v různých scénářích. Náš výzkum zahrnoval formulování Hearthstone ve formalismu popisující hry s nedokonalou informací, úpravu simulátoru hry Hearthstone, vývoj agentů učících se pomocí technik posilovaného učení, definování dostupných informací o stavu pro agenty, implementace více neuronových sítí pro akce, a empirické vyhodnocení výkonu agentů oproti heuristickým agentům a také proti sobě. Výsledky ukázaly, že PPO se sice dokáže naučit základní strategie a cíle hry. Naproti tomu A2C vykazoval značnou numerickou nestabilitu při učení, což jej činilo pro naše účely téměř nepoužitelným. Závěrem lze říci, že ačkoli posilovací učení vykazuje ve sběratelských karetních hrách potenciál, současné algoritmy čelí značným výzvám při dosahování nadlidského výkonu v těchto multiagentních prostředích s nedokonalými informacemi. Budoucí práce by mohla zahrnovat zkoumání sofistikovanějších algoritmů, jako je RNaD, a zdokonalování metodik trénování s cílem zvýšit výkonnost agentů.

In recent years, reinforcement learning has shown significant promise in solving complex games. This research investigates the application of reinforcement learning techniques to Collectible Card Games (CCGs), with a specific focus on Hearthstone. We have used Proximal Policy Optimisation (PPO) and Advantage Actor-Critic (A2C) algorithms to train agents in various scenarios. Our research includes formulating Hearthstone in the formalism describing imperfect information games, adjusting a Hearthstone simulator, developing reinforcement learning agents, defining the observation given to agents, implementing multiple neural networks for actions, and empirically evaluating their performance against heuristic-based agents and also against each other. The results demonstrated that the PPO was able to learn the basic strategies and objectives of the game. In contrast, the A2C exhibited significant numerical instability, rendering it nearly unusable for our purposes. In conclusion, while reinforcement learning shows potential in CCGs, current algorithms face significant challenges in achieving superhuman performance levels in these multi-agent, imperfect information environments. Future work could involve exploring more sophisticated algorithms, such as RNaD, and refining training methodologies to enhance agent performance.

Keywords

Posilované učení, strojové učení, sběratelské karetní hry, Hearthstone, Proximal Policy Optimisation, Advantage Actor-Critic, multi-agentní systémy, Reinforcement Learning, Machine Learning, Collectible Card Games, Hearthstone, Proximal Policy Optimisation, Advantage Actor-Critic, Multi-Agent Systems

Permanent link

http://hdl.handle.net/10467/115596

Rights/License

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

Collections

Bachelor Theses - 13133

Full item page

Applying Reinforcement Learning Techniques to Collectible Card Games