Zobrazit minimální záznam

Abstraction in Reinforcement Learning



dc.contributor.advisorPlatt Robert
dc.contributor.authorOndřej Bíža
dc.date.accessioned2019-06-15T22:52:20Z
dc.date.available2019-06-15T22:52:20Z
dc.date.issued2019-06-15
dc.identifierKOS-762877346605
dc.identifier.urihttp://hdl.handle.net/10467/83208
dc.description.abstractAbstrakce je důležitý nástroj pro inteligentního agenta. Pomáhá mu řešit složité úlohy tím, že ignoruje nedůležité detaily. V této práci popíši nový algoritmus pro hledání abstrakcí, Online Partition Iteration, který je založený na teorii homomorfismů Markovských rozhodovacích procesů. Můj algoritmus dokáže vytvořit abstrakce ze zkušeností nasbíraných agentem v prostředích s vysokodimenzionálními stavy a velkým množství dostupných akcí. Také představím nový přístup k přenášení abstrakcí mezi různými úlohami, který dosáhl nelpších výsledků ve většině mých experimentů. Nakonec dokážu správnost svého algoritmu pro hledání abstrakcí.cze
dc.description.abstractAbstraction is an important tool for an intelligent agent. It can help the agent act in complex environments by selecting which details are important and which to ignore. In my thesis, I describe a novel abstraction algorithm called Online Partition Iteration, which is based on the theory of Markov Decision Process homomorphisms. The algorithm can find abstractions from a stream of collected experience in high-dimensional environments. I also introduce a technique for transferring the found abstractions between tasks that outperforms a deep Q-network baseline in the majority of my experiments. Finally, I prove the correctness of my abstraction algorithm.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectstrojové učenícze
dc.subjectposilované učenícze
dc.subjectabstrakcecze
dc.subjectrobotická manipulacecze
dc.subjecthomomorfismy Markovsých rozhodovacích procesůcze
dc.subjectdeep learningcze
dc.subjectmachine learningeng
dc.subjectreinforcement learningeng
dc.subjectabstractioneng
dc.subjectrobotic manipulationeng
dc.subjectmarkov decision process homomorphismseng
dc.subjectdeep learningeng
dc.titleAbstrakce v posilovaném učenícze
dc.titleAbstraction in Reinforcement Learningeng
dc.typebakalářská prácecze
dc.typebachelor thesiseng
dc.contributor.refereeMaldonado Lopez Juan Pablo
theses.degree.disciplineZnalostní inženýrstvícze
theses.degree.grantorkatedra aplikované matematikycze
theses.degree.programmeInformatikacze


Soubory tohoto záznamu




Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam