Odhadování pozice a orientace specifických rigidních objektů

Tomáš Hodaň

Pose Estimation of Specific Rigid Objects

dc.contributor.advisor	Matas Jiří
dc.contributor.author	Tomáš Hodaň
dc.date.accessioned	2021-03-18T13:19:12Z
dc.date.available	2021-03-18T13:19:12Z
dc.date.issued	2021-02-07
dc.identifier	KOS-500863505205
dc.identifier.uri	http://hdl.handle.net/10467/93910
dc.description.abstract	Tématem této disertační práce je odhad 3D pozice a 3D orientace rigidních objektů z jediného RGB nebo RGB-D snímku, kdy 3D modely objektů jsou předem známé. Řešení této úlohy počítačového vidění má široké uplatnění v mnoha aplikacích, jako je například robotická manipulace, rozšířená realita nebo autonomní řízení vozidel. Prvním přínosem práce je metoda EPOS pro odhad pozice a orientace objektů z RGB snímku. Hlavní myšlenkou je reprezentovat povrch objektů množinou kompaktních fragmentů a pro každý fragment a každý bod na snímku odhadnout pomocí neuronové sítě pravděpodobnost, s jakou daný bod leží na projekci daného fragmentu. Každý bod na snímku je na základě těchto odhadů provázán s potenciálně mnoha fragmenty, což umožňuje zachytit případné symetrie objektu. Pozice a orientace objektů jsou odhadnuty z navázaných korespondencí robustní metodou založenou na algoritmu RANSAC. Metoda EPOS je použitelná pro celou řadu objektů, včetně symetrických objektů a objektů bez textury, a překonala všechny metody pro odhad z RGB snímku a většinu metod pro odhad z RGB-D a D snímku na několika standardních datasetech. Druhým přínosem je metoda HashMatch, která prochází vstupní RGB-D snímek posuvným oknem a pro každou pozici okna hledá odpovídající šablonu z množiny získané syntézou různých pohledů na 3D modely objektů. Každá pozice okna je vyhodnocena kaskádou kroků, díky které se metoda vyhýbá porovnávání se všemi šablonami. Klíčovým krokem je rychlá identifikace malého počtu potenciálně odpovídajících šablon pomocí hlasování, kde každý hlas je vypočítán z hloubkové informace z několika bodů v okně. Třetím přínosem je přístup ObjectSynth pro syntézu fotorealistických snímků pro trénování metod využívajících neuronové sítě. 3D modely objektů jsou rozmístěny v 3D modelech místností a snímky jsou získány fyzikálně založeným renderováním. Metody trénované na těchto snímcích dosahují výrazného zlepšení v porovnání s běžně používanými snímky zobrazujícími 3D modely objektů na náhodných fotografiích. Čtvrtým přínosem je dataset T-LESS, který obsahuje 3D modely a trénovací a testovací snímky třiceti elektronických součástek. Tyto součástky nemají výraznou texturu nebo barvu, v mnoha případech jsou symetrické, vzájemně si podobné tvarem či velikostí, a některé součástky jsou složeninami z ostatních. T-LESS je prvním datasetem obsahujícím objekty těchto vlastností, které jsou časté v průmyslovém prostředí. Pátým přínosem je srovnávací systém BOP, který zachycuje status quo v odhadu pozice a orientace objektů. BOP aktuálně obsahuje jedenáct datasetů v jednotném formátu, vyhodnocovací metodologii, webový vyhodnocovací portál, a veřejné soutěže pořádané na mezinárodních seminářích organizovaných každoročně na konferencích ICCV a ECCV.	cze
dc.description.abstract	In this thesis, we address the problem of estimating the 6D pose of rigid objects from a single RGB or RGB-D input image, assuming that 3D models of the objects are available. This problem is of great importance to many application fields such as robotic manipulation, augmented reality, and autonomous driving. First, we propose EPOS, a method for 6D object pose estimation from an RGB image. The key idea is to represent an object by compact surface fragments and predict the probability distribution of corresponding fragments at each pixel of the input image by a neural network. Each pixel is linked with a data-dependent number of fragments, which allows systematic handling of symmetries, and the 6D poses are estimated from the links by a RANSAC-based fitting method. EPOS is applicable to a broad range of objects, including challenging ones with global or partial symmetries and without any texture, and outperformed all RGB and most RGB-D and D methods on several standard datasets. Second, we present HashMatch, an RGB-D method that slides a window over the input image and searches for a match against templates, which are pre-generated by rendering 3D object models in different orientations. The method applies a cascade of evaluation stages to each window location, which avoids exhaustive matching against all templates. The key is a voting stage based on hashing that generates a small set of candidate templates, which are then processed by more expensive verification and refinement stages. Third, we propose ObjectSynth, an approach to synthesize photorealistic images of 3D object models for training methods based on neural networks. The 3D object models are arranged in 3D models of indoor scenes and the images are synthesized by physically-based rendering. The resulting images yield substantial improvements compared to commonly used images of objects rendered on top of random photographs. Fourth, we introduce T-LESS, a dataset for 6D object pose estimation that includes 3D models and training and test RGB-D images of thirty electrical parts. These objects have no significant texture or discriminative color, exhibit symmetries and similarities in shape and size, and some objects are a composition of others. T-LESS is the first dataset to include objects of such properties which are common in industrial environments. Fifth, we define BOP, a benchmark that captures the status quo in the field. The benchmark currently comprises eleven datasets in a unified format, an evaluation methodology, an online evaluation system, and public challenges held at international workshops organized annually at the ICCV and ECCV conferences.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	rozpoznávání objektů	cze
dc.subject	pozice a rotace objektů	cze
dc.subject	strojové učení	cze
dc.subject	neuronové sítě	cze
dc.subject	syntéza trénovacích dat	cze
dc.subject	fotorealistické renderování	cze
dc.subject	benchmark	cze
dc.subject	object pose estimation	eng
dc.subject	object detection	eng
dc.subject	deep learning	eng
dc.subject	neural network	eng
dc.subject	template matching	eng
dc.subject	data synthesis	eng
dc.subject	photorealistic rendering	eng
dc.subject	benchmark	eng
dc.title	Odhadování pozice a orientace specifických rigidních objektů	cze
dc.title	Pose Estimation of Specific Rigid Objects	eng
dc.type	disertační práce	cze
dc.type	doctoral thesis	eng
dc.contributor.referee	Lepetit Vincent
theses.degree.discipline	Umělá inteligence a biokybernetika	cze
theses.degree.grantor	katedra kybernetiky	cze
theses.degree.programme	Elektrotechnika a informatika	cze

Soubory tohoto záznamu

Název:: F3-D-2021-Hodan-Tomas-thesis_0 ...
Velikost:: 36.85Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Disertační práce - 13000 [706]

Zobrazit minimální záznam