Posilované učení pro rozšíření kompetencí ve vizuální navigaci

Maxim Simon

Reinforcement Learning for Extended Competencies in Visual Teach and Repeat Navigation

Typ dokumentu

bakalářská práce
bachelor thesis

Autor

Maxim Simon

Vedoucí práce

Rozsypálek Zdeněk

Oponent práce

Pivoňka Tomáš

Studijní program

Kybernetika a robotika

Instituce přidělující hodnost

katedra řídicí techniky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Navigace je jednou ze základních funkcí robota, který je schopen autonomního pohybu po oblasti. Často je struktura tohoto prostoru známa předem a není potřeba, aby ji robot autonomně prozkoumával. Vizuální teach and repeat (vt&r) navigace spoléhá na člověka, nebo jinou třetí stranu, který robota ručním ovládáním provede cestou. Robot během této 'teach' fáze nahrává data ze senzorů a později je schopen cestu autonomně projet - 'repeat' fáze. Avšak změny v prostředí mezi teach a repeat fázemi představují problém pro vt\&r navigace, jelikož opakování cesty je obyčejně prováděno bez dalších autonomních schopností řešit nepředvídatelné události. V této práci trénuji neuronovou síť, aby vykonávala kontrolní řízení vt&r systému. Využití strojového učení ve vývoji řídící funkce dovoluje, vylepšením trénovacího rozhraní, přidání kompetencí výsledné vt&r metodě. Přidané funkce mohou řešit neočekávané situace způsobené dynamickou povahou prostředí. Nejdříve vytrénuji řídící funkci schopnou provést robota naučenou cestou. Poté rozšířím schéma strojového učení tak, aby vytrénovalo řídící funkci schopnou vyhýbat se překážkám během autonomního opakování trajektorie. Obě výsledné vt&r navigace jsou experimentálně vyhodnoceny. V této práci poskytuji detailní popis vt&r navigačního systému a struktury strojového učení, které bylo použito pro jeho vývoj. Dále diskutuji výhody použití strojového učení pro vývoj vt&r navigační metody a možné budoucí rozšíření jejích kompetencí.

Navigation is the basic requirement for any robot autonomously roaming an area. Oftentimes, the structure of the space is previously known, relieving the need for exploration performed by the robot. Visual teach and repeat (vt&r) navigation relies on a human operator, or other third party, teleoperating the robot to 'teach' it a path. The robot records sensory data during this teach phase and is then capable of autonomously traversing the path. However, any elements changing between teach and repeat phases present a problem for vt&r navigations as they commonly repeat the saved trajectory without any additional autonomy to tackle unforeseen events. In this thesis, I train a neural network acting as a control policy of a vt&r system. The use of reinforcement learning in the development of the control policy allows for extending the capabilities of the resulting vt&r method by expanding the training setup. The additional functionalities could tackle various unexpected scenarios arising from the dynamic nature of environments encountered in a real-world deployment. First, I train a control policy capable of autonomously traversing apriori known paths. Second, I enhance the reinforcement learning scheme to train a control policy capable of avoiding obstacles as it repeats a taught path. Both resulting vt&r navigation methods are experimentally evaluated. This thesis provides a detailed description of the vt&r navigation system and the reinforcement learning setup used for its development. Moreover, the advantages of using reinforcement learning for the development of a vt&r navigation, and possible further extending of its capabilities are discussed.