Next Step Prediction in Sport Climbing on Artificial Bouldering Walls
Předpověď dalšího kroku ve sportovním lezení na umělých boulderingových stěnách
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date
Abstract
Tato bakalářská práce se zabývá úlohou predikce následujícího pohybu lezce při boulderingu na základě jediného snímku z videa. Cílem je na základě statického obrázku lezecké stěny s lezcem odhadnout jeho budoucí pózu buď po uplynutí pevně daného časového intervalu, nebo v dalším klíčovém okamžiku pohybu. Pro účely této úlohy byla sestavena rozsáhlá datová sada z více než 800 veřejně dostupných videí s boulderingem. Pomocí automatizovaného zpracování byly vybrány úseky se statickou kamerou a na každém snímku byly odhadnuty lidské pózy. Výsledná sada obsahuje přes 750 000 snímků s odhadnutými pózami pokrývajících různorodé lezecké situace. Byl navržen model založený na transformerové architektuře ViTPose, který predikuje budoucí pózy ze snímků videa. Vyhodnocení probíhalo pomocí upravené metriky OKS (Object Keypoint Similarity) i vizuálních ukázek. Výsledky ukazují, že model dokáže dobře aproximovat trénovací data, ale generalizace na nové úseky je obtížná kvůli víceznačnosti a komplexitě pohybu při lezení. Navzdory těmto výzvám však model často generuje realistické a biomechanicky věrohodné pózy a tvoří tak základ pro další výzkum predikce lidského pohybu ve sportovním lezení.
This thesis addresses the task of predicting a climber's next movement in indoor bouldering from a single video frame. Given an image of a climbing wall with a visible climber, the objective is to estimate their future pose either after a fixed time interval or at the next key transition in movement. To support this task, a large-scale dataset was collected from over 800 publicly available climbing videos, filtered for static camera segments and annotated using pose estimation models. The resulting dataset contains over 750,000 frames with estimated human poses in diverse climbing scenarios. A transformer-based prediction model leveraging the ViTPose architecture was developed to predict the future pose from raw video frames. Evaluation was conducted using a modified version of Object Keypoint Similarity (OKS), along with qualitative examples. Results indicate that while the model fits the training data well, generalization to unseen climbing scenes remains challenging in part due to the ambiguous and multimodal nature of human motion in climbing. Nonetheless, the system is capable of producing plausible and biomechanically valid predictions, forming a foundation for further research in pose forecasting and climbing motion understanding.
This thesis addresses the task of predicting a climber's next movement in indoor bouldering from a single video frame. Given an image of a climbing wall with a visible climber, the objective is to estimate their future pose either after a fixed time interval or at the next key transition in movement. To support this task, a large-scale dataset was collected from over 800 publicly available climbing videos, filtered for static camera segments and annotated using pose estimation models. The resulting dataset contains over 750,000 frames with estimated human poses in diverse climbing scenarios. A transformer-based prediction model leveraging the ViTPose architecture was developed to predict the future pose from raw video frames. Evaluation was conducted using a modified version of Object Keypoint Similarity (OKS), along with qualitative examples. Results indicate that while the model fits the training data well, generalization to unseen climbing scenes remains challenging in part due to the ambiguous and multimodal nature of human motion in climbing. Nonetheless, the system is capable of producing plausible and biomechanically valid predictions, forming a foundation for further research in pose forecasting and climbing motion understanding.
Description
Keywords
Predikce pózy, Sportovní lezení, Bouldering, Počítačové vidění, Analýza lidského pohybu, Transformerové sítě, Konstrukce datové sady, Detekce klíčových snímků, Pose prediction, Sport climbing, Bouldering, Computer vision, Human motion analysis, Transformer networks, Dataset construction, Keyframe detection