Abstrakce v posilovaném učení
Abstraction in Reinforcement Learning
dc.contributor.advisor | Platt Robert | |
dc.contributor.author | Ondřej Bíža | |
dc.date.accessioned | 2019-06-15T22:52:20Z | |
dc.date.available | 2019-06-15T22:52:20Z | |
dc.date.issued | 2019-06-15 | |
dc.identifier | KOS-762877346605 | |
dc.identifier.uri | http://hdl.handle.net/10467/83208 | |
dc.description.abstract | Abstrakce je důležitý nástroj pro inteligentního agenta. Pomáhá mu řešit složité úlohy tím, že ignoruje nedůležité detaily. V této práci popíši nový algoritmus pro hledání abstrakcí, Online Partition Iteration, který je založený na teorii homomorfismů Markovských rozhodovacích procesů. Můj algoritmus dokáže vytvořit abstrakce ze zkušeností nasbíraných agentem v prostředích s vysokodimenzionálními stavy a velkým množství dostupných akcí. Také představím nový přístup k přenášení abstrakcí mezi různými úlohami, který dosáhl nelpších výsledků ve většině mých experimentů. Nakonec dokážu správnost svého algoritmu pro hledání abstrakcí. | cze |
dc.description.abstract | Abstraction is an important tool for an intelligent agent. It can help the agent act in complex environments by selecting which details are important and which to ignore. In my thesis, I describe a novel abstraction algorithm called Online Partition Iteration, which is based on the theory of Markov Decision Process homomorphisms. The algorithm can find abstractions from a stream of collected experience in high-dimensional environments. I also introduce a technique for transferring the found abstractions between tasks that outperforms a deep Q-network baseline in the majority of my experiments. Finally, I prove the correctness of my abstraction algorithm. | eng |
dc.publisher | České vysoké učení technické v Praze. Vypočetní a informační centrum. | cze |
dc.publisher | Czech Technical University in Prague. Computing and Information Centre. | eng |
dc.rights | A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html | eng |
dc.rights | Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html | cze |
dc.subject | strojové učení | cze |
dc.subject | posilované učení | cze |
dc.subject | abstrakce | cze |
dc.subject | robotická manipulace | cze |
dc.subject | homomorfismy Markovsých rozhodovacích procesů | cze |
dc.subject | deep learning | cze |
dc.subject | machine learning | eng |
dc.subject | reinforcement learning | eng |
dc.subject | abstraction | eng |
dc.subject | robotic manipulation | eng |
dc.subject | markov decision process homomorphisms | eng |
dc.subject | deep learning | eng |
dc.title | Abstrakce v posilovaném učení | cze |
dc.title | Abstraction in Reinforcement Learning | eng |
dc.type | bakalářská práce | cze |
dc.type | bachelor thesis | eng |
dc.contributor.referee | Maldonado Lopez Juan Pablo | |
theses.degree.discipline | Znalostní inženýrství | cze |
theses.degree.grantor | katedra aplikované matematiky | cze |
theses.degree.programme | Informatika | cze |
Soubory tohoto záznamu
Tento záznam se objevuje v následujících kolekcích
-
Bakalářské práce - 18105 [295]