Integration of Multiple Gesture and Language Instruction for Tiago Robot Control
Integrace vícečetných gest a jazykových instrukcí pro ovládání robota Tiago
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
2025-06-11
Abstract
Tato diplomová práce se zabývá rozšířením schopností humanoidního robota Tiago o porozumění a vykonávání komplexních manipulačních příkazů zadávaných současně přirozeným jazykem a vícečetnými ukazovacími gesty. Navazuje na dřívější řešení, které zpracovávalo pouze jednotlivé gesto a jednoduchý příkaz, a rozšiřuje ho o (i) detektor sekvencí ukazovacích gest, (ii) modul pro fúzi a párování jazykových příkazů s gesty a (iii) vylepšený modul pro rozhodování zpracovávající tři typy akcí - \textit{pick}, \textit{place} a \textit{move} - s využitím pravděpodobnostního principu. Navržený systém byl otestován na 30 scénářích při manipulaci s YCB objekty, ve kterých byla prokázána schopnost zpracování vícečetných gest a jazykových instrukcí i jejich korektní sekvencování v požadovaném pořadí. Výsledky práce představují první krok k přirozené a plynulé interakci člověka s robotem prostřednictvím simultánně používaného jazyka a gest a poskytují rámec pro další rozvoj multimodálních manipulačních úloh.
This thesis extends the capabilities of the humanoid robot Tiago to understand and execute complex manipulation commands issued simultaneously in natural language and through multiple pointing gestures. Building on a previous system that handled only a single gesture and a simple command, the work introduces (i) a detector of pointing-gesture sequences, (ii) a fusion module that pairs language segments with the corresponding gestures, and (iii) an enhanced decision-making module that reasons probabilistically about three action typespick, place, and move. The proposed architecture was evaluated in 30 YCB-object manipulation scenarios, demonstrating reliable processing of multiple gestures and language instructions and their correct sequencing in the required order. The results represent a first step toward natural, fluid human-robot interaction via concurrently used speech and gestures, and they provide a solid framework for further development of multimodal manipulation tasks.
This thesis extends the capabilities of the humanoid robot Tiago to understand and execute complex manipulation commands issued simultaneously in natural language and through multiple pointing gestures. Building on a previous system that handled only a single gesture and a simple command, the work introduces (i) a detector of pointing-gesture sequences, (ii) a fusion module that pairs language segments with the corresponding gestures, and (iii) an enhanced decision-making module that reasons probabilistically about three action typespick, place, and move. The proposed architecture was evaluated in 30 YCB-object manipulation scenarios, demonstrating reliable processing of multiple gestures and language instructions and their correct sequencing in the required order. The results represent a first step toward natural, fluid human-robot interaction via concurrently used speech and gestures, and they provide a solid framework for further development of multimodal manipulation tasks.
Description
Citation
Underlying research data set URL
Permanent link
Rights/License
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.