Učení sémantických orientačních bodů bez učitele pro dlouhodobou vizuální navigaci robotů

Jan Blaha

Unsupervised learning of semantic landmarks for visual navigation over extended periods of time

Type of document

diplomová práce
master thesis

Author

Jan Blaha

Supervisor

Broughton George

Opponent

Kusumam Keerthy

Field of study

Datové vědy

Study program

Otevřená informatika

Institutions assigning rank

katedra počítačů

Rights

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Show full item record

Abstract

Reprezentace používané mobilními autonomními systémy pro vizuální navigaci trpí změnami v prostředí, které nevyhnutelně v čase nastávají a zhoršují jejich výkon. Cílem této práce je navrhnout metody pro učení sémantických orientačních bodů bez učitele pomocí dlouhodobého nasazení navigačního systému pro opakovanou navigaci. Dále je zhodnocen jejich schopnost umožnit dlouhodobou navigaci, protože klasické metody založené na lokálních obrazových vlastnostech mohou v takových případech selhávat. Nasazování autonomních robotických systémů je silně závislé na velkém množství anotovaných dat pro neuronové sítě z oblasti počítačového vidění. Dostupná data však nesplňují požadavky na reprezentativnost, a proto je i částečná automatizace tvorby těchto datových sad velmi žádoucí schopnost. Přímo pro úlohu vizuální navigace je také zajímavé učení abstraktnějších reprezentací prostředí, která jsou bližší lidskému uvažování. Práce navrhuje tři metody pro automatickou identifikaci sémantických orientačních bodů, z nichž každá je založena na jiném principu, specificky navrženém pro využití dat z opakované vizuální navigace. Navržené metody jsou hodnoceny z hlediska jejich schopnosti horizontálně zarovnávat snímky, což je nutné pro jejich integraci do zvoleného navigačního systému. Výsledky naznačují, že jsou v tyto metody robustnější, i když méně přesné než klasické přístupy založené na lokálních obrazových příznacích. Samotná integrace byla otestována v reálném experimentu s robotem opakujícím cestu dva týdny po jejím naučení.

Representations used by mobile autonomous systems for visual navigation have trouble effectively dealing with changes which inevitably happen with time and are detrimental to their performance. The goal of this thesis is to propose and evaluate methods for the unsupervised learning of semantic landmarks from a long-term deployment of the visual teach-and-repeat navigation system. Their main assumed benefit is the ability to enable such navigation over extended periods of time where classical methods based on local image features fail. Deployment of autonomous robotic systems is heavily dependent on large annotated datasets because of neural networks in perception. These, however, fail to satisfy the requirements for representativeness, which makes even partial automation of creating these datasets very desired. In the particular task of visual navigation, learning more abstract and high-level representations of the environment is also interesting as it brings the algorithmic solution closer to human cognition. The work proposes three methods for automatic semantic landmarks discovery, each based on a different principle specifically designed to make use of the data from long-term visual teach-and-repeat navigation. The proposed methods are evaluated on their ability to align images necessary for their integration into the chosen navigational system. The results indicate that they are more robust albeit less precise than the classical methods based on local image features. The integration is then also done and tested in a real-world experiment with a robot repeating a path recorded two weeks previously.