Odhad pozice úchopu objektů pomocí multimodálních modelů
Griping Pose Estimation of Objects Using Multimodal Foundation Models
Typ dokumentu
diplomová prácemaster thesis
Autor
Elizaveta Isianova
Vedoucí práce
Burde Varun
Oponent práce
Charatan David
Studijní program
Kybernetika a robotikaInstituce přidělující hodnost
katedra kybernetikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Manipulace s objekty je základním úkolem v robotice, který vyžaduje jak přesné vnímání objektů, tak inteligentní rozhodování. Tato diplomová práce zkoumá vizualně-jazykové modely (VLM) a jejich integrací do procesu odhadování úchopových pozic pro různé objekty. V rámci této práce byla vyvinuta metoda s použitím VLM pro generaci 6-DoF úchopových pozic pro dva typy uchopovačů: paralelní uchopovač a vakuový uchopovač. Pro ověření přístupu pro paralelní uchopovač byly úchopové pozice simulovány a porovnány s těmi, které byly vytvořeny metodou založenou pouze na geometrii objektu. Úchopové pozice pro vakuový uchopovač byly testovány na reálné robotické buňce. Výsledky ukazují, že VLM pomáhají snižovat počet kandidátních bodů a snižovat výpočetní náklady tím, že izolují funkční nebo bezpečnější oblasti pro úchop (např. držadla, hrany) na objektech pomoci semantického uvažování. Object manipulation is a fundamental task for robots in real-world environments. It requires both accurate object perception and intelligent decision-making. This thesis explores the vision language models (VLMs) and their integration into the process of estimating grasp poses for various objects. A software pipeline was developed where a VLM identifies semantically meaningful regions for grasping for two types of grippers: a parallel gripper and a vacuum gripper. To validate this approach, the generated antipodal grasping poses were simulated and compared to the ones produced from the method solely based on the geometry of the object. The grasping poses for a vacuum gripper were tested in a real-world robotic cell. Results demonstrate that VLMs help reducing the number of candidate grasping points and lowering computational costs, by isolating functional or safer areas for grasping (e.g., handles, edges) on the objects.
Kolekce
- Diplomové práce - 13133 [519]