Interactive Robotic Scene Exploration Using Vision-Language Models

Interaktivní průzkum scény robotem pomocí vizuálně-jazykových modelů

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Research Projects

Organizational Units

Journal Issue

Abstract

Autonomní servisní roboti operující v nestrukturovaných, částečně pozorovatelných prostředích čelí třem kritickým výzvám: přesné percepci scény, konzistentní reprezentaci paměti a sofistikovanému výběru akcí. Tato práce řeší tyto výzvy hybridním řešením, který kombinuje velké jazykové modely (LLM) s reprezentacemi grafů scény pro inteligentní robotický průzkum a manipulaci. Problém interaktivního průzkumu scény formulujeme jako částečně pozorovatelný Markovův rozhodovací proces (POMDP), ale využíváme LLM k obejití výpočetní neřešitelnosti explicitní údržby pravděpodobnostních odhadu stavu a výpočtu optimální strategie. Náš systém udržuje znalosti o prostředí jako grafy scénystrukturované reprezentace objektů, jejich vlastností a prostorových/sémantických vztahůdynamicky aktualizované prostřednictvím percepce a uvažování řízeného LLM. Řešení rozšiřuje tradiční prostory akcí pomocí stromů chování s kontrolou předpokladů, umožňuje složité vícekrokové uvažování a zavádí akce průzkumu vlastností nad rámec základní manipulace. Pomocí experimentální validace s manipulátorem Franka Emika Panda jsme hodnotili: (1) schopnosti generování grafů scény pomocí čtyř vizuálně-jazykových modelů a (2) schopnosti výběru akcí s explicitními reprezentacemi grafů scény a bez nich. Výsledky demonstrují významnou variaci výkonu modelů, přičemž nejlepší model (o4-mini) dosahuje 88% přesnosti generování grafů scény a 4,5× zlepšení oproti nejhoršímu výsledku. Integrace grafu scény vede ke 40% snížení počtu selhání (p=0,042), přičemž náš systém je schopen autonomního provozu v 77,4% a zároveň generuje grafy scény s 72% přesností vůči referenčním hodnotám.

Autonomous service robots operating in unstructured, partially observable environments face three critical challenges: accurate scene perception, consistent memory representation, and sophisticated action selection. This thesis addresses these challenges by proposing a hybrid framework that combines Large Language Models (LLMs) with scene graph representations for intelligent robotic exploration and manipulation. We formulate the problem as a Partially Observable Markov Decision Process (POMDP) but leverage LLMs to bypass the computational intractability of explicit belief state maintenance and optimal policy computation. Our system maintains environmental knowledge as scene graphsstructured representations of objects, their properties, and spatial/semantic relationshipsdynamically updated through LLM-driven perception and reasoning. The framework expands traditional action spaces using behavior trees with precondition checking, enabling complex multi-step reasoning, and introduces property exploration actions beyond basic manipulation. Experimental validation using a Franka Emika Panda manipulator evaluated: (1) scene graph generation capabilities across four vision-language models, and (2) action selection performance with and without explicit scene graph representations. Results demonstrate significant model performance variation, with the best model (o4-mini) achieving 88% scene graph generation accuracy and 4.5× improvement over the worst performer. For action selection, scene graph integration reduces behavior failures by 40% (p=0.042), with our system achieving 77.4% autonomous operation while generating scene graphs with 72% accuracy from ground-truth representations.

Description

Citation

Endorsement

Review

Supplemented By

Referenced By