Vizuální navigace s použitím hlubokého posilovaného učení

Jonáš Kulhánek

Visual Navigation using Deep Reinforcement Learning

Typ dokumentu

bakalářská práce
bachelor thesis

Autor

Jonáš Kulhánek

Vedoucí práce

Derner Erik

Oponent práce

Kober Jens

Studijní obor

Informatika a počítačové vědy

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra kybernetiky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Hluboké posilované učení bylo aplikované na řadu herních prostředí. Aplikace hlubokého posilovaného učení na vizuální navigaci v realistických prostředích je však náročný úkol. Navrhujeme novou učící architekturu schopnou navigovat agenta k cíli danému obrázkem. K tomu, abychom toho dosáhli, jsme rozšířili batched advantage actor-critic (A2C) algoritmus o pomocné moduly, které byly navrženy, aby vylepšily výkon algoritmu aplikovaného na vizuální navigaci. Navrhujeme tři rozšiřující pomocné moduly pro predikci hloubkové mapy a segmentačních masek pozorovaného obrázku a cílového obrázku. Tyto moduly umožňují použít učení s učitelem na předtrénování velké části neuronové sítě, což snižuje počet trénovacích kroků potřebných k naučení algoritmu. Výkon učení může být navíc zlepšen, když se postupně zvyšuje složitost prostředí s časem. Navrhujeme efektivní strukturu neuronové sítě, která je schopná naučit se navigovat do různých cílů v různých prostředích. Naše metoda je schopná navigace ve spojitých prostředích a v prostředí AI2-THOR překonává výkon state-of-the-art metod umožňujících navigaci do zadaného cíle

Deep reinforcement learning (RL) has been successfully applied to a variety of game-like environments. However, the application of deep RL to visual navigation with realistic 3D environments is a challenging task. We propose a novel learning architecture capable of navigating an agent to a target given by an image. To achieve this, we have extended batched advantage actor-critic (A2C) algorithm with auxiliary tasks designed to improve visual navigation performance. We propose three additional auxiliary tasks for the prediction of the depth map, of the observation image segmentation and of the target image segmentation. These tasks enable the use of supervised learning to pre-train a major part of the network and to substantially reduce the number of training steps. The training performance can be further improved by increasing the environment complexity gradually over time. An efficient neural network structure is proposed, which is capable of learning for multiple targets in multiple environments. Our method navigates in continuous state spaces and on the AI2-THOR environment simulator surpasses the performance of state-of-the-art goal-oriented visual navigation methods from the literature.