Prozkoumávání prostoru v úloze přenosu znalostí

Adam Jedlička

Exploration in Knowledge Transfer

Type of document

diplomová práce
master thesis

Author

Adam Jedlička

Supervisor

Guy Tatiana

Opponent

Ettler Pavel

Field of study

Aplikované matematicko-stochastické metody

Study program

Aplikace přírodních věd

Institutions assigning rank

katedra matematiky

Defended

2023-01-30

Rights

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Show full item record

Abstract

Tato práce je zaměřená na prozkoumávání prostoru v přenosovém učení, i.e. přenos znalostí z úkolu naučeného v minulosti, použité pro nový úkol za účelem zrychlení učícího se procesu nebo nalezení lepšího řešení. Ojevování-využívání uvažuje novou zkušenost, kterou by agent mohl získat pomocí náhodné akce. Objevování je obzvláště důležité v metodách zpětnovazebního učení, kdy může objevit výhodnější stavy. Cílem této práce je vybrat několik objevovacích metod a použít je pro přenos znalostí pro hluboké zpětnovazební učení. Konkrétně jsme použili algoritmus hlubokého cíleného přenosu Q-učení v kombinaci s ε-greedy, Boltzmannovým a UCB prozkoumácím algoritmem a zjistili jsme, že fungují relativně dobře. Výsledky však zdůraznily nekonzistenci výkonu několika algoritmů ve srovnání mezi sebou v souvislosti se zadaným úkolem.

This thesis focuses on exploration in knowledge transfer, i.e. when knowledge learned in past task used for a new task with an aim to accelerate the learning process or find a better solution. The exploration-exploitation balances the novel experience that the agent may obtain by applying a random action. In particular the exploration is of high importance in reinforcement learning methods when it can discover more advantageous states. The goal of this thesis is to select several exploration methods and use them for knowledge transfer in deep reinforcement learning. We have used a deep target transfer Q-learning in combination with ε-greedy, Boltzmann and UCB exploration algorithms and have found out that they work relatively well. However, the results highlighted the inconsistency of several algorithms in comparison with each other with regard to different tasks.