A Probabilistic Approach to Recognizing Human Intent Based on Language and Gestures

Pravděpodobnostní přístup k rozpoznávání lidského záměru na základě jazyka a gest

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Date of defense

2025-06-18

Research Projects

Organizational Units

Journal Issue

Abstract

Tato diplomová práce se věnuje návrhu, implementaci a testování pravděpodobnostního modelu pro kontextové porozumění lidským záměrům v manipulačních úlohách. Cílem je vyvinout model, který efektivně integruje více modalit přirozený jazyk, gesta a vizuální kontext scény a na jejich základě určuje vhodnou akci a odpovídající objekt, zejména v případech, kdy je záměr uživatele nejednoznačný při použití jediné modality. V úvodu práce analyzujeme současné přístupy k multimodální integraci v interakci člověkrobot. Pro účely tréninku a testování vytváříme simulovaný dataset s objekty různě uspořádanými na stole, který zahrnuje obrazové vstupy, popisy scén, jazykové příkazy různé složitosti a gesta. Dataset je navržen tak, aby žádná jednotlivá modalita sama o sobě nestačila k jednoznačnému určení záměru, čímž klade důraz na nutnost multimodální integrace. Navržený model pravděpodobnostně integruje gesta a jazyk, využívá kontextové informace o objektech a jejich vztazích k akcím a je odolný vůči neúplným či zkresleným vstupům. Model je trénován a testován na příkazech různých složitostí a jeho výsledky porovnáváme s referenčním modelem TransforMerger. Hodnotíme přesnost, robustnost a analyzujeme přínos jednotlivých modalit pro celkový výkon modelu.

This thesis focuses on the design, implementation, and testing of a probabilistic model for contextual understanding of human intentions in manipulation tasks. The goal is to develop a model that effectively integrates multiple modalities natural language, gestures, and the visual context of the scene and on their basis determines the appropriate action and corresponding object, especially in cases where the user's intention is ambiguous when using a single modality. In the introduction, we analyze current approaches to multimodal integration in human-robot interaction. For training and testing purposes, we create a simulated dataset with objects arranged in various ways on a table, which includes visual inputs, scene descriptions, language commands of varying complexity, and gestures. The dataset is designed so that no single modality alone is sufficient to unambiguously determine the intention, thereby emphasizing the necessity of multimodal integration. The proposed model probabilistically integrates gestures and language, utilizes contextual information about objects and their relationships to actions, and is robust to incomplete or noisy inputs. The model is trained and tested on commands of varying complexity, and its results are compared with the reference model TransforMerger. We evaluate accuracy, robustness, and analyze the contribution of individual modalities to the overall performance of the model.

Description

Citation

Underlying research data set URL

Rights/License

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Endorsement

Review

Supplemented By

Referenced By