Interaktivní průzkum scény robotem pomocí vizuálně-jazykových modelů
Interactive Robotic Scene Exploration Using Vision-Language Models
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Mark Horpynych
Vedoucí práce
Štěpánová Karla
Oponent práce
Rustler Lukáš
Studijní program
Kybernetika a robotikaInstituce přidělující hodnost
katedra kybernetikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Autonomní servisní roboti operující v nestrukturovaných, částečně pozorovatelných prostředích čelí třem kritickým výzvám: přesné percepci scény, konzistentní reprezentaci paměti a sofistikovanému výběru akcí. Tato práce řeší tyto výzvy hybridním řešením, který kombinuje velké jazykové modely (LLM) s reprezentacemi grafů scény pro inteligentní robotický průzkum a manipulaci. Problém interaktivního průzkumu scény formulujeme jako částečně pozorovatelný Markovův rozhodovací proces (POMDP), ale využíváme LLM k obejití výpočetní neřešitelnosti explicitní údržby pravděpodobnostních odhadu stavu a výpočtu optimální strategie. Náš systém udržuje znalosti o prostředí jako grafy scénystrukturované reprezentace objektů, jejich vlastností a prostorových/sémantických vztahůdynamicky aktualizované prostřednictvím percepce a uvažování řízeného LLM. Řešení rozšiřuje tradiční prostory akcí pomocí stromů chování s kontrolou předpokladů, umožňuje složité vícekrokové uvažování a zavádí akce průzkumu vlastností nad rámec základní manipulace. Pomocí experimentální validace s manipulátorem Franka Emika Panda jsme hodnotili: (1) schopnosti generování grafů scény pomocí čtyř vizuálně-jazykových modelů a (2) schopnosti výběru akcí s explicitními reprezentacemi grafů scény a bez nich. Výsledky demonstrují významnou variaci výkonu modelů, přičemž nejlepší model (o4-mini) dosahuje 88% přesnosti generování grafů scény a 4,5× zlepšení oproti nejhoršímu výsledku. Integrace grafu scény vede ke 40% snížení počtu selhání (p=0,042), přičemž náš systém je schopen autonomního provozu v 77,4% a zároveň generuje grafy scény s 72% přesností vůči referenčním hodnotám. Autonomous service robots operating in unstructured, partially observable environments face three critical challenges: accurate scene perception, consistent memory representation, and sophisticated action selection. This thesis addresses these challenges by proposing a hybrid framework that combines Large Language Models (LLMs) with scene graph representations for intelligent robotic exploration and manipulation. We formulate the problem as a Partially Observable Markov Decision Process (POMDP) but leverage LLMs to bypass the computational intractability of explicit belief state maintenance and optimal policy computation. Our system maintains environmental knowledge as scene graphsstructured representations of objects, their properties, and spatial/semantic relationshipsdynamically updated through LLM-driven perception and reasoning. The framework expands traditional action spaces using behavior trees with precondition checking, enabling complex multi-step reasoning, and introduces property exploration actions beyond basic manipulation. Experimental validation using a Franka Emika Panda manipulator evaluated: (1) scene graph generation capabilities across four vision-language models, and (2) action selection performance with and without explicit scene graph representations. Results demonstrate significant model performance variation, with the best model (o4-mini) achieving 88% scene graph generation accuracy and 4.5× improvement over the worst performer. For action selection, scene graph integration reduces behavior failures by 40% (p=0.042), with our system achieving 77.4% autonomous operation while generating scene graphs with 72% accuracy from ground-truth representations.
Kolekce
- Bakalářské práce - 13133 [851]