Combining Monocular Depth Estimation with 2D-3D Correspondences

Kombinace monokulárního odhadu hloubky s 2D-3D korespondencemi

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Date of defense

2025-06-20

Research Projects

Organizational Units

Journal Issue

Abstract

Tato diplomová práce zkoumá možnosti dotrénování (tzv. fine-tune) existující obecné neuronové sítě pro odhad hloubky pomocí omezeného množství trénovacích dat. Tradiční přístupy obvykle využívají husté hloubkové mapy, které poskytují hodnotu hloubky pro každý pixel jako referenční (ground-truth) data. Získání takových dat je však často nákladné a časově náročné. Práce proto zvažuje alternativní metody, využívající 2D-3D korespondence získané pomocí rekonstrukcí metodou Structure from Motion (SfM) a řídká hloubková data z hloubkových senzorů s nízkým rozlišením. Obě metody jsou ve srovnání cenově dostupnější a přístupnější. Výsledky ukazují, že tyto alternativní formy referenčních hloubkových dat umožňují vybranému modelu dosáhnout výrazného zlepšení výkonu již po krátkém dotrénování. Práce dále analyzuje parametry ovlivňující toto zlepšení a ukazuje, že i extrémně malé množství přesných hloubkových měření získaných laserovým hloubkovým skenerem může vést k významnému zlepšení. Celkově zjištění naznačují, že specializace sítě pro konkrétní prostředí je touto metodou možná i s minimem levně dostupných dat.

This thesis investigates the feasibility of fine-tuning an existing general neural network for depth estimation using a limited number of training samples. Traditional training approaches typically rely on dense depth maps, which provide per-pixel depth values as ground-truth data. However, collecting such data is often expensive and time-consuming. As an alternative, this work explores the use of 2D-3D correspondences derived from Structure from Motion (SfM) reconstructions and sparse depth data from low-resolution sensors. Both of these methods are comparatively more cost-effective to obtain as well as more accessible. The results demonstrate that these alternative forms of ground-truth depth enable the selected model to achieve significant performance improvements after brief fine-tuning. Additionally, the thesis examines the parameters influencing this improvement and reveals that even an extremely small number of accurate depth measurements obtained using a laser depth scanner can lead to notable improvement. Overall, the findings indicate that it is possible to specialize a depth estimation network to a specific environment using minimal and inexpensive data.

Description

Citation

Underlying research data set URL

Rights/License

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Endorsement

Review

Supplemented By

Referenced By