Time-Series Classification for Action Detection for monitoring daily activities
Klasifikace časových řad pro detekci akcí při monitorování každodenních aktivit
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
2025-06-11
Files
Abstract
V této práci vyvíjíme a vyhodnocujeme systém pro klasifikaci časových řad denních lidských činností se zaměřením na monitorování a detekci potenciálně nebezpečných pohybů. Zaznamenali jsme multimodální dataset kombinující 3D pozice klíčových bodů (MediaPipe), hloubku (RealSense), polohy objektů (AruCo) a zvuk, který pokrývá běžné denní aktivity, pracovní úkoly, komunikační gesta a pohyby zahrnuté ve SPPB a Timed Up & Go testu.
Implementujeme dva klasifikační přístupy 1-NN s Dynamic Time Warping (DTW) na syrových 3D sekvencích klíčových bodů a clusterovaný přístup k-medoid s následným kNNDTW pro urychlení vyhledávání sousedů. Každý přístup hodnotíme ve třech konfiguracích vstupních dat: (1) pouze pohyb, (2) pohyb + kontext objektů, (3) pohyb + kontext objektů + zvuk. Navíc provádíme 5-násobnou křížovou validaci (5-fold cross validation) pro ověření stability dosažených výsledků. Experimenty ukazují, že přidání objektového kontextu a zvukových parametrů výrazně zlepšuje přesnost detekce abnormálních a nebezpečných pohybů, aniž by výrazně narostla výpočetní náročnost. Na závěr diskutujeme možnosti reálného nasazení a aplikace v monitorování péče o seniory a v interakci člověkrobot.
In this work, we develop and evaluate a system for classifying time-series data of daily human activities, with a focus on monitoring and detecting potentially hazardous actions. We record a multimodal dataset combining 3D pose (MediaPipe), depth (RealSense), object positions (AruCo), and audio, covering everyday activities, work-related tasks, communication gestures, and SPPB/Timed Up & Go movements. We implement two classification pipelines 1-NN with Dynamic Time Warping (DTW) on raw 3D landmark sequences and a clustered k-medoids + kNNDTW approach to accelerate neighbor search each evaluated under three input configurations: (1) motion only; (2) motion + object context; and (3) motion + object context + sound. Additionally, we perform 5-fold cross-validation to assess the stability of the results. Our experiments demonstrate that incorporating object context and audio features significantly improves the accuracy of detecting anomalous and dangerous movements while maintaining computational efficiency. Finally, we discuss prospects for real-time deployment and applications in elderly care monitoring and humanrobot interaction.
In this work, we develop and evaluate a system for classifying time-series data of daily human activities, with a focus on monitoring and detecting potentially hazardous actions. We record a multimodal dataset combining 3D pose (MediaPipe), depth (RealSense), object positions (AruCo), and audio, covering everyday activities, work-related tasks, communication gestures, and SPPB/Timed Up & Go movements. We implement two classification pipelines 1-NN with Dynamic Time Warping (DTW) on raw 3D landmark sequences and a clustered k-medoids + kNNDTW approach to accelerate neighbor search each evaluated under three input configurations: (1) motion only; (2) motion + object context; and (3) motion + object context + sound. Additionally, we perform 5-fold cross-validation to assess the stability of the results. Our experiments demonstrate that incorporating object context and audio features significantly improves the accuracy of detecting anomalous and dangerous movements while maintaining computational efficiency. Finally, we discuss prospects for real-time deployment and applications in elderly care monitoring and humanrobot interaction.
Description
Keywords
klasifikace časových řad; detekce akcí; kontext objektu; dataset; Dynamic Time Warping (DTW); DTW vizualizace; 1-NN klasifikace; kNN klasifikace; k-medoidová shluková analýza; SVM klasifikace; multimodální fúze; 3D odhad póz; snímání hloubky; extrakce zvukových rysů; interakce člověkrobot, time-series classification; action detection; object context; dataset; Dynamic Time Warping (DTW); DTW visualisation; 1-NN classification; kNN classification; k-medoids clustering; SVM classification; multimodal fusion; 3D pose estimation; depth sensing; audio feature extraction; humanrobot interaction
Citation
Permanent link
Rights/License
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.