Using Monocular Depth Estimates to Improve 3D Gaussian Splatting
Využití monokulárních odhadů hloubky pro vylepšení metody 3D Gaussian Splatting
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
2025-06-18
Abstract
3D Gaussian Splatting (3DGS) je aktuální metoda pro fotorealistickou 3D rekonstrukci scén ze sady fotografií. Na základě řídkého 3D bodového mračna, získaného např. metodou Structure-from-Motion (SfM), 3DGS inicializuje reprezentaci scény definovanou množinou anizotropních 3D Gaussových funkcí a množinou funkcí přiřazujících barvu v závislosti na úhlu pohledu.
Parametry této reprezentace scény jsou následně optimalizovány tak, aby výsledná reprezentace
rekonstruovala vstupní sadu obrázků co nejpřesněji.
Tato diplomová práce se zabývá návrhem a implementací inicializační strategie pro 3DGS
založené na monokulárních odhadech hloubky. Výsledky získané při použití navržené
inicializační strategie jsou vyhodnoceny na standardních datových sadách s využitím několika prediktorů hloubky založených na metodách hlubokého učení.
Výsledky ukazují slibná zlepšení jak v subjektivních hodnoceních kvality syntézy nových
pohledů, tak v kvantitativních metrikách.
3D Gaussian Splatting (3DGS) is a recent approach for photo-realistic 3D reconstruction of scenes from a set of photos. Given a sparse 3D point cloud, e.g., predicted by Structure-from-Motion (SfM), 3DGS initializes a scene representation, defined as a set of anisotropic 3D Gaussians and associated view-dependent color functions. The parameters of this scene representation are then optimized as to reconstruct the set of training images as accurately as possible. In this thesis, a 3DGS initialization strategy based on monocular depth predictions is designed and implemented. The performance of the approach is evaluated on standard datasets, using multiple learned monocular depth predictors, showing promising improvements, both in subjectively assessed novel view synthesis quality and in quantitative metrics.
3D Gaussian Splatting (3DGS) is a recent approach for photo-realistic 3D reconstruction of scenes from a set of photos. Given a sparse 3D point cloud, e.g., predicted by Structure-from-Motion (SfM), 3DGS initializes a scene representation, defined as a set of anisotropic 3D Gaussians and associated view-dependent color functions. The parameters of this scene representation are then optimized as to reconstruct the set of training images as accurately as possible. In this thesis, a 3DGS initialization strategy based on monocular depth predictions is designed and implemented. The performance of the approach is evaluated on standard datasets, using multiple learned monocular depth predictors, showing promising improvements, both in subjectively assessed novel view synthesis quality and in quantitative metrics.
Description
Citation
Underlying research data set URL
Permanent link
Rights/License
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.