Detekce částí lidského těla z velké blízkosti

Jan Dočekal

Close proximity human keypoint detection

Type of document

diplomová práce
master thesis

Author

Jan Dočekal

Supervisor

Hoffmann Matěj

Opponent

Neumann Lukáš

Field of study

Umělá inteligence

Study program

Otevřená informatika

Institutions assigning rank

katedra počítačů

Rights

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Show full item record

Abstract

Detekce částí lidského těla je užitečná pro několik aplikací. V poslední době je k dispozici několik řešení založených na hlubokých konvolučních sítích, které rozpoznají lidské pózy z obrázků. Typicky jsou detekovány celá lidská těla v různých vzdálenostech. Pro interakci člověka s robotem je detekce částí lidského těla klíčem ke garanci bezpečné vzdálenosti mezi strojem a operátorem. Nicméně v případě blízké vzdálenosti, kdy jsou viděny pouze části lidského těla, standardní algoritmy nefungují dostatečně správně. Pro spolupráci člověka s robotem je robustní detekce, například pouze rukou, zásadní. V této práci jsme zaprvé vytvořili a zveřejnili dataset velké blízkosti, kde se objevují pouze části lidského těla. Zadruhé jsme kvantitativně a kvalitativně porovnali nejmodernější metody pro detekci částí lidského těla (OpenPose, MMPose, AlphaPose, Detectron2 a MediaPipe) na tomto datasetu. Výsledky ukazují, že nejlepším detektorem pro anotaci celého těla je AlphaPose a MediaPipe pro detekci prstů. Zatřetí jsme implementovali detekci na humanoidním robotu iCub s Intel RealSense RGB-D kamerou na hlavě. Detekované části lidského těla v obrázcích jsou transformovány do jejich 3D pozic za pomoci hloubkové informace z RealSense kamery. Řešení jsme demonstrovali ve scénáři, kde robot použivá detekované 3D části lidského těla pro manévry vyhýbání se celému tělu.

Human keypoint detection is useful in various applications. Recently, a number of solutions based on deep convolutional neural networks have appeared that recognize human poses in images. Typically, complete human bodies from different distances are detected. For human-robot interaction, human keypoint detection is key to guarantee safe separation distances between the machine and the operator. However, in such close proximity scenarios where only parts of the human body are visible, standard algorithms do not perform well. For human-robot collaboration, robust detection of, for example, only human hands is critical. In this thesis, first, we create and make publicly available a close proximity dataset where only parts of the human body are visible. Second, we quantitatively and qualitatively compare state-of-the-art human keypoint detection methods (OpenPose, MMPose, AlphaPose, Detectron2, and MediaPipe) on this dataset. The results show that the best performing detector is AlphaPose for whole-body annotation and MediaPipe for detection of finger keypoints. Third, we deploy the detector on a humanoid robot iCub with an Intel RealSense RGB-D camera on the head. Detected human keypoints in images are transformed to their 3D positions using depth information from the RealSense camera. We demonstrate the performance in a scenario where the robot uses the detected 3D keypoints for whole-body avoidance maneuvers.