Using Monocular Depth Estimates to Improve 3D Gaussian Splatting
Využití monokulárních odhadů hloubky pro vylepšení metody 3D Gaussian Splatting
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date
Files
Abstract
3D Gaussian Splatting (3DGS) je aktuální metoda pro fotorealistickou 3D rekonstrukci scén ze sady fotografií. Na základě řídkého 3D bodového mračna, získaného např. metodou Structure-from-Motion (SfM), 3DGS inicializuje reprezentaci scény definovanou množinou anizotropních 3D Gaussových funkcí a množinou funkcí přiřazujících barvu v závislosti na úhlu pohledu. Parametry této reprezentace scény jsou následně optimalizovány tak, aby výsledná reprezentace rekonstruovala vstupní sadu obrázků co nejpřesněji. Tato diplomová práce se zabývá návrhem a implementací inicializační strategie pro 3DGS založené na monokulárních odhadech hloubky. Výsledky získané při použití navržené inicializační strategie jsou vyhodnoceny na standardních datových sadách s využitím několika prediktorů hloubky založených na metodách hlubokého učení. Výsledky ukazují slibná zlepšení jak v subjektivních hodnoceních kvality syntézy nových pohledů, tak v kvantitativních metrikách.
3D Gaussian Splatting (3DGS) is a recent approach for photo-realistic 3D reconstruction of scenes from a set of photos. Given a sparse 3D point cloud, e.g., predicted by Structure-from-Motion (SfM), 3DGS initializes a scene representation, defined as a set of anisotropic 3D Gaussians and associated view-dependent color functions. The parameters of this scene representation are then optimized as to reconstruct the set of training images as accurately as possible. In this thesis, a 3DGS initialization strategy based on monocular depth predictions is designed and implemented. The performance of the approach is evaluated on standard datasets, using multiple learned monocular depth predictors, showing promising improvements, both in subjectively assessed novel view synthesis quality and in quantitative metrics.
3D Gaussian Splatting (3DGS) is a recent approach for photo-realistic 3D reconstruction of scenes from a set of photos. Given a sparse 3D point cloud, e.g., predicted by Structure-from-Motion (SfM), 3DGS initializes a scene representation, defined as a set of anisotropic 3D Gaussians and associated view-dependent color functions. The parameters of this scene representation are then optimized as to reconstruct the set of training images as accurately as possible. In this thesis, a 3DGS initialization strategy based on monocular depth predictions is designed and implemented. The performance of the approach is evaluated on standard datasets, using multiple learned monocular depth predictors, showing promising improvements, both in subjectively assessed novel view synthesis quality and in quantitative metrics.