Accuracy of 3D body pose and shape estimation of infants from RGB and RGB-D data
Přesnost 3D odhadu polohy a tvaru těla kojenců z RGB a RGB-D dat
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
Abstract
Tato práce zkoumá schopnosti vnímání hloubky tří RGB-D kamer, konkrétně Intel RealSense D435, D455 a ZED 2i na statické i dynamické objekty s cílem zlepšit neinvazivní diagnostiku psychomotorických postižení, jako je dětská mozková obrna. Provedli jsme nahrávky tří kojenců pomocí RGB-D kamer a motion capture systému jakožto reference. Kromě analýzy hloubkového vnímání jsme použili 2D a 3D odhad polohy pomocí současných modelů, konkrétně MediaPipe, ViTPose a ZED Native. Porovnáním výsledků z RGB-D kamer a modelů doporučujeme optimální dvojici kamera-model pro nejefektivnější přístup k přesnému a spolehlivému odhadu polohy kojence.
This study investigates the depth perception capabilities of three RGB-D cameras, namely Intel RealSense D435, D455, and ZED 2i on both static and dynamic objects, aiming to enhance the non-invasive diagnosis of psychomotor disabilities such as cerebral palsy in infants. We conducted recordings of three infants, using RGB-D cameras and a motion capture system as the ground truth reference. In addition to depth perception analysis, we employed 2D and 3D pose estimation with current state-of-the-art models, specifically MediaPipe, ViTPose and ZED Native. By comparing the results from RGB-D cameras and models, we aimed to recommend the optimal pair camera-model for the most effective approach for precise and reliable pose estimation of infant.
This study investigates the depth perception capabilities of three RGB-D cameras, namely Intel RealSense D435, D455, and ZED 2i on both static and dynamic objects, aiming to enhance the non-invasive diagnosis of psychomotor disabilities such as cerebral palsy in infants. We conducted recordings of three infants, using RGB-D cameras and a motion capture system as the ground truth reference. In addition to depth perception analysis, we employed 2D and 3D pose estimation with current state-of-the-art models, specifically MediaPipe, ViTPose and ZED Native. By comparing the results from RGB-D cameras and models, we aimed to recommend the optimal pair camera-model for the most effective approach for precise and reliable pose estimation of infant.
Description
Keywords
RGB-D kamery, Intel RealSense, Stereolabs ZED, Motion capture system, 2D and 3D odhad pozice, MediaPipe, ViTPose, Odhad pozice kojenců, Point clouds, RGB-D cameras, Intel RealSense, Stereolabs ZED, Motion capture system, 2D and 3D pose estimation, MediaPipe, ViTPose, Infant pose estimation, Point clouds
Citation
Underlying research data set URL
Permanent link
Rights/License
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.