3D odhad polohy těla kojenců z RGB obrázků a videí

Vojtěch Ježek

3D Body Pose Estimation of Infants from RGB Images and Videos

Typ dokumentu

bakalářská práce
bachelor thesis

Autor

Vojtěch Ježek

Vedoucí práce

Hoffmann Matěj

Oponent práce

Purkrábek Miroslav

Studijní program

Kybernetika a robotika

Instituce přidělující hodnost

katedra kybernetiky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Automatizovaný odhad polohy kojence a následná analýza jeho pohybu má velký potenciál pro včasnou diagnostiku vývojových poruch, jako je dětská mozková obrna. Tato práce porovnává šest moderních metod odhadu 3D polohy z videozáznamů (ROMP, BEV, TRACE, 4D Humans a SMPLify-X s OpenPose a ViTPose) na sekvencích snímků kojenců s úpravami standardních metrik –⁠⁠⁠⁠⁠⁠ střední chyba polohy na kloub, směrodatná odchylka délky kosti a počet chybných detekcí. Překvapivě model SMPLify, který v našem případě používá model s tělem kojence (SMIL), je překonán modelem 4D Humans, který používá model dospělého člověka (SMPL). Srovnání potvrzuje, že metody sledující osoby na více videosnímcích produkují odhady tvaru a polohy těla s lepší stabilitou délky kostí. Nejúspěšnější metodu 4D Humans jsme přetrénovali na datech kojenců, aby používala model, který odpovídá tělům kojenců (SMIL). Ukazujeme, že použití dětských těl zlepšuje odhad hloubky. Uvádíme nástin možných budoucích vylepšení procesu trénování metody 4D Humans.

Automated estimation of infant pose and subsequent analysis of infant motion carries great potential for early diagnostics of developmental disorders like cerebral palsy. This thesis compares six state-of-the-art methods to 3D pose estimation from videos (ROMP, BEV, TRACE, 4D Humans, and SMPLify-X with OpenPose and ViTPose) on sequences of images of infants, with adaptations of standard metrics—mean per joint position error, bone length standard deviation, and the number of missed detections. Surprisingly, the SMPLify-X model, which, in our case, fits an infant body (SMIL) to the images, is outperformed by 4D Humans, which uses an adult model (SMPL). The comparison confirms that methods tracking people across multiple video frames output bodies with better bone length stability. We retrain the best-performing method, 4D Humans, with a model that fits infant bodies (SMIL) on infant data. We show that the use of infant bodies improves the estimation of depth. We provide an outline of possible future improvements to the training process.