Integration of Multiple Gesture and Language Instruction for Tiago Robot Control

Integrace vícečetných gest a jazykových instrukcí pro ovládání robota Tiago

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Date of defense

2025-06-11

Research Projects

Organizational Units

Journal Issue

Abstract

Tato diplomová práce se zabývá rozšířením schopností humanoidního robota Tiago o porozumění a vykonávání komplexních manipulačních příkazů zadávaných současně přirozeným jazykem a vícečetnými ukazovacími gesty. Navazuje na dřívější řešení, které zpracovávalo pouze jednotlivé gesto a jednoduchý příkaz, a rozšiřuje ho o (i) detektor sekvencí ukazovacích gest, (ii) modul pro fúzi a párování jazykových příkazů s gesty a (iii) vylepšený modul pro rozhodování zpracovávající tři typy akcí - \textit{pick}, \textit{place} a \textit{move} - s využitím pravděpodobnostního principu. Navržený systém byl otestován na 30 scénářích při manipulaci s YCB objekty, ve kterých byla prokázána schopnost zpracování vícečetných gest a jazykových instrukcí i jejich korektní sekvencování v požadovaném pořadí. Výsledky práce představují první krok k přirozené a plynulé interakci člověka s robotem prostřednictvím simultánně používaného jazyka a gest a poskytují rámec pro další rozvoj multimodálních manipulačních úloh.

This thesis extends the capabilities of the humanoid robot Tiago to understand and execute complex manipulation commands issued simultaneously in natural language and through multiple pointing gestures. Building on a previous system that handled only a single gesture and a simple command, the work introduces (i) a detector of pointing-gesture sequences, (ii) a fusion module that pairs language segments with the corresponding gestures, and (iii) an enhanced decision-making module that reasons probabilistically about three action typespick, place, and move. The proposed architecture was evaluated in 30 YCB-object manipulation scenarios, demonstrating reliable processing of multiple gestures and language instructions and their correct sequencing in the required order. The results represent a first step toward natural, fluid human-robot interaction via concurrently used speech and gestures, and they provide a solid framework for further development of multimodal manipulation tasks.

Description

Citation

Underlying research data set URL

Rights/License

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Endorsement

Review

Supplemented By

Referenced By