Zobrazit minimální záznam

Pose Estimation of Specific Rigid Objects



dc.contributor.advisorMatas Jiří
dc.contributor.authorTomáš Hodaň
dc.date.accessioned2021-03-18T13:19:12Z
dc.date.available2021-03-18T13:19:12Z
dc.date.issued2021-02-07
dc.identifierKOS-500863505205
dc.identifier.urihttp://hdl.handle.net/10467/93910
dc.description.abstractTématem této disertační práce je odhad 3D pozice a 3D orientace rigidních objektů z jediného RGB nebo RGB-D snímku, kdy 3D modely objektů jsou předem známé. Řešení této úlohy počítačového vidění má široké uplatnění v mnoha aplikacích, jako je například robotická manipulace, rozšířená realita nebo autonomní řízení vozidel. Prvním přínosem práce je metoda EPOS pro odhad pozice a orientace objektů z RGB snímku. Hlavní myšlenkou je reprezentovat povrch objektů množinou kompaktních fragmentů a pro každý fragment a každý bod na snímku odhadnout pomocí neuronové sítě pravděpodobnost, s jakou daný bod leží na projekci daného fragmentu. Každý bod na snímku je na základě těchto odhadů provázán s potenciálně mnoha fragmenty, což umožňuje zachytit případné symetrie objektu. Pozice a orientace objektů jsou odhadnuty z navázaných korespondencí robustní metodou založenou na algoritmu RANSAC. Metoda EPOS je použitelná pro celou řadu objektů, včetně symetrických objektů a objektů bez textury, a překonala všechny metody pro odhad z RGB snímku a většinu metod pro odhad z RGB-D a D snímku na několika standardních datasetech. Druhým přínosem je metoda HashMatch, která prochází vstupní RGB-D snímek posuvným oknem a pro každou pozici okna hledá odpovídající šablonu z množiny získané syntézou různých pohledů na 3D modely objektů. Každá pozice okna je vyhodnocena kaskádou kroků, díky které se metoda vyhýbá porovnávání se všemi šablonami. Klíčovým krokem je rychlá identifikace malého počtu potenciálně odpovídajících šablon pomocí hlasování, kde každý hlas je vypočítán z hloubkové informace z několika bodů v okně. Třetím přínosem je přístup ObjectSynth pro syntézu fotorealistických snímků pro trénování metod využívajících neuronové sítě. 3D modely objektů jsou rozmístěny v 3D modelech místností a snímky jsou získány fyzikálně založeným renderováním. Metody trénované na těchto snímcích dosahují výrazného zlepšení v porovnání s běžně používanými snímky zobrazujícími 3D modely objektů na náhodných fotografiích. Čtvrtým přínosem je dataset T-LESS, který obsahuje 3D modely a trénovací a testovací snímky třiceti elektronických součástek. Tyto součástky nemají výraznou texturu nebo barvu, v mnoha případech jsou symetrické, vzájemně si podobné tvarem či velikostí, a některé součástky jsou složeninami z ostatních. T-LESS je prvním datasetem obsahujícím objekty těchto vlastností, které jsou časté v průmyslovém prostředí. Pátým přínosem je srovnávací systém BOP, který zachycuje status quo v odhadu pozice a orientace objektů. BOP aktuálně obsahuje jedenáct datasetů v jednotném formátu, vyhodnocovací metodologii, webový vyhodnocovací portál, a veřejné soutěže pořádané na mezinárodních seminářích organizovaných každoročně na konferencích ICCV a ECCV.cze
dc.description.abstractIn this thesis, we address the problem of estimating the 6D pose of rigid objects from a single RGB or RGB-D input image, assuming that 3D models of the objects are available. This problem is of great importance to many application fields such as robotic manipulation, augmented reality, and autonomous driving. First, we propose EPOS, a method for 6D object pose estimation from an RGB image. The key idea is to represent an object by compact surface fragments and predict the probability distribution of corresponding fragments at each pixel of the input image by a neural network. Each pixel is linked with a data-dependent number of fragments, which allows systematic handling of symmetries, and the 6D poses are estimated from the links by a RANSAC-based fitting method. EPOS is applicable to a broad range of objects, including challenging ones with global or partial symmetries and without any texture, and outperformed all RGB and most RGB-D and D methods on several standard datasets. Second, we present HashMatch, an RGB-D method that slides a window over the input image and searches for a match against templates, which are pre-generated by rendering 3D object models in different orientations. The method applies a cascade of evaluation stages to each window location, which avoids exhaustive matching against all templates. The key is a voting stage based on hashing that generates a small set of candidate templates, which are then processed by more expensive verification and refinement stages. Third, we propose ObjectSynth, an approach to synthesize photorealistic images of 3D object models for training methods based on neural networks. The 3D object models are arranged in 3D models of indoor scenes and the images are synthesized by physically-based rendering. The resulting images yield substantial improvements compared to commonly used images of objects rendered on top of random photographs. Fourth, we introduce T-LESS, a dataset for 6D object pose estimation that includes 3D models and training and test RGB-D images of thirty electrical parts. These objects have no significant texture or discriminative color, exhibit symmetries and similarities in shape and size, and some objects are a composition of others. T-LESS is the first dataset to include objects of such properties which are common in industrial environments. Fifth, we define BOP, a benchmark that captures the status quo in the field. The benchmark currently comprises eleven datasets in a unified format, an evaluation methodology, an online evaluation system, and public challenges held at international workshops organized annually at the ICCV and ECCV conferences.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectrozpoznávání objektůcze
dc.subjectpozice a rotace objektůcze
dc.subjectstrojové učenícze
dc.subjectneuronové sítěcze
dc.subjectsyntéza trénovacích datcze
dc.subjectfotorealistické renderovánícze
dc.subjectbenchmarkcze
dc.subjectobject pose estimationeng
dc.subjectobject detectioneng
dc.subjectdeep learningeng
dc.subjectneural networkeng
dc.subjecttemplate matchingeng
dc.subjectdata synthesiseng
dc.subjectphotorealistic renderingeng
dc.subjectbenchmarkeng
dc.titleOdhadování pozice a orientace specifických rigidních objektůcze
dc.titlePose Estimation of Specific Rigid Objectseng
dc.typedisertační prácecze
dc.typedoctoral thesiseng
dc.contributor.refereeLepetit Vincent
theses.degree.disciplineUmělá inteligence a biokybernetikacze
theses.degree.grantorkatedra kybernetikycze
theses.degree.programmeElektrotechnika a informatikacze


Soubory tohoto záznamu


Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam