3D Body Pose Estimation of Infants from RGB Images and Videos

3D odhad polohy těla kojenců z RGB obrázků a videí

Supervisors

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Date of defense

Research Projects

Organizational Units

Journal Issue

Abstract

Automatizovaný odhad polohy kojence a následná analýza jeho pohybu má velký potenciál pro včasnou diagnostiku vývojových poruch, jako je dětská mozková obrna. Tato práce porovnává šest moderních metod odhadu 3D polohy z videozáznamů (ROMP, BEV, TRACE, 4D Humans a SMPLify-X s OpenPose a ViTPose) na sekvencích snímků kojenců s úpravami standardních metrik –⁠⁠⁠⁠⁠⁠ střední chyba polohy na kloub, směrodatná odchylka délky kosti a počet chybných detekcí. Překvapivě model SMPLify, který v našem případě používá model s tělem kojence (SMIL), je překonán modelem 4D Humans, který používá model dospělého člověka (SMPL). Srovnání potvrzuje, že metody sledující osoby na více videosnímcích produkují odhady tvaru a polohy těla s lepší stabilitou délky kostí. Nejúspěšnější metodu 4D Humans jsme přetrénovali na datech kojenců, aby používala model, který odpovídá tělům kojenců (SMIL). Ukazujeme, že použití dětských těl zlepšuje odhad hloubky. Uvádíme nástin možných budoucích vylepšení procesu trénování metody 4D Humans.

Automated estimation of infant pose and subsequent analysis of infant motion carries great potential for early diagnostics of developmental disorders like cerebral palsy. This thesis compares six state-of-the-art methods to 3D pose estimation from videos (ROMP, BEV, TRACE, 4D Humans, and SMPLify-X with OpenPose and ViTPose) on sequences of images of infants, with adaptations of standard metrics—mean per joint position error, bone length standard deviation, and the number of missed detections. Surprisingly, the SMPLify-X model, which, in our case, fits an infant body (SMIL) to the images, is outperformed by 4D Humans, which uses an adult model (SMPL). The comparison confirms that methods tracking people across multiple video frames output bodies with better bone length stability. We retrain the best-performing method, 4D Humans, with a model that fits infant bodies (SMIL) on infant data. We show that the use of infant bodies improves the estimation of depth. We provide an outline of possible future improvements to the training process.

Description

Citation

Underlying research data set URL

Rights/License

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

Endorsement

Review

Supplemented By

Referenced By