Combining Monocular Depth Estimation with 2D-3D Correspondences
Kombinace monokulárního odhadu hloubky s 2D-3D korespondencemi
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
2025-06-20
Abstract
Tato diplomová práce zkoumá možnosti dotrénování (tzv. fine-tune) existující obecné neuronové sítě pro odhad hloubky pomocí omezeného množství trénovacích dat. Tradiční přístupy obvykle využívají husté hloubkové mapy, které poskytují hodnotu hloubky pro každý pixel jako referenční (ground-truth) data. Získání takových dat je však často nákladné a časově náročné. Práce proto zvažuje alternativní metody, využívající 2D-3D korespondence získané pomocí rekonstrukcí metodou Structure from Motion (SfM) a řídká hloubková data z hloubkových senzorů s nízkým rozlišením. Obě metody jsou ve srovnání cenově dostupnější a přístupnější. Výsledky ukazují, že tyto alternativní formy referenčních hloubkových dat umožňují vybranému modelu dosáhnout výrazného zlepšení výkonu již po krátkém dotrénování. Práce dále analyzuje parametry ovlivňující toto zlepšení a ukazuje, že i extrémně malé množství přesných hloubkových měření získaných laserovým hloubkovým skenerem může vést k významnému zlepšení. Celkově zjištění naznačují, že specializace sítě pro konkrétní prostředí je touto metodou možná i s minimem levně dostupných dat.
This thesis investigates the feasibility of fine-tuning an existing general neural network for depth estimation using a limited number of training samples. Traditional training approaches typically rely on dense depth maps, which provide per-pixel depth values as ground-truth data. However, collecting such data is often expensive and time-consuming. As an alternative, this work explores the use of 2D-3D correspondences derived from Structure from Motion (SfM) reconstructions and sparse depth data from low-resolution sensors. Both of these methods are comparatively more cost-effective to obtain as well as more accessible. The results demonstrate that these alternative forms of ground-truth depth enable the selected model to achieve significant performance improvements after brief fine-tuning. Additionally, the thesis examines the parameters influencing this improvement and reveals that even an extremely small number of accurate depth measurements obtained using a laser depth scanner can lead to notable improvement. Overall, the findings indicate that it is possible to specialize a depth estimation network to a specific environment using minimal and inexpensive data.
This thesis investigates the feasibility of fine-tuning an existing general neural network for depth estimation using a limited number of training samples. Traditional training approaches typically rely on dense depth maps, which provide per-pixel depth values as ground-truth data. However, collecting such data is often expensive and time-consuming. As an alternative, this work explores the use of 2D-3D correspondences derived from Structure from Motion (SfM) reconstructions and sparse depth data from low-resolution sensors. Both of these methods are comparatively more cost-effective to obtain as well as more accessible. The results demonstrate that these alternative forms of ground-truth depth enable the selected model to achieve significant performance improvements after brief fine-tuning. Additionally, the thesis examines the parameters influencing this improvement and reveals that even an extremely small number of accurate depth measurements obtained using a laser depth scanner can lead to notable improvement. Overall, the findings indicate that it is possible to specialize a depth estimation network to a specific environment using minimal and inexpensive data.
Description
Citation
Underlying research data set URL
Permanent link
Rights/License
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.