Data augmentation for reinforcement learning
Zvětšování množiny dat pro posilování učení
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date
Abstract
V této práci je implementován nedávno představený framework pro posilované učení výzkumníků Ha a Schmidhubera nazvaný World Models. Ti přichází s originální myšlenkou naučit se svět z mnoha aspektů a ne jen ze zkušeností. Aby toho dosáhli, rozdělili jejich algoritmus do tří hlavních částí -- zrak, paměť a řízení. Tento způsob vnímání světa je blíže tomu, jak to dělají lidé, či zvířata. Implementace tohoto přístupu přináší různé výzvy, jelikož se nedá přímo převést na nové prostředí. Výsledky jsou srovnatelné s metodami nevyužívající model, ale pro jejich dosažení bylo potřeba mnohem méně intarakcí s prostředím. Tato technika má tedy dopad na dlouho trvající problém zvětšování dat, který je zásadní pro nasazení systémů posilovaného učení do reálného světa. V teoretické části práce jsou poskytnuty informace potřebné k pochopení fungování jednotlivých částí World Models, úvod do posilovaného učení a další přístupy pro zvětšování dat pro posilované učení.
A recently introduced framework for reinforcement learning, called World models by Ha and Schmidhuber, has been implemented for this thesis. They came with a novel idea to learn the world from many channels, not only experience. To simulate this approach, they split the algorithm into three main components -- vision, memory, and control. This appears to be closer to what animals and humans do. The implementation of this approach has its challenges and does not translate directly into a new environment. The results are comparable with model-free methods, but with much fewer queries to the environment. This technique has implication for the long-standing problem of data augmentation, which is crucial to the deployment of real-life reinforcement learning systems. The theoretical part of the thesis provides a general background for understanding the components of the World Models along with a brief introduction to reinforcement learning and the underlying ideas behind other data augmentation techniques for reinforcement learning.
A recently introduced framework for reinforcement learning, called World models by Ha and Schmidhuber, has been implemented for this thesis. They came with a novel idea to learn the world from many channels, not only experience. To simulate this approach, they split the algorithm into three main components -- vision, memory, and control. This appears to be closer to what animals and humans do. The implementation of this approach has its challenges and does not translate directly into a new environment. The results are comparable with model-free methods, but with much fewer queries to the environment. This technique has implication for the long-standing problem of data augmentation, which is crucial to the deployment of real-life reinforcement learning systems. The theoretical part of the thesis provides a general background for understanding the components of the World Models along with a brief introduction to reinforcement learning and the underlying ideas behind other data augmentation techniques for reinforcement learning.