Griping Pose Estimation of Objects Using Multimodal Foundation Models
Odhad pozice úchopu objektů pomocí multimodálních modelů
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
Abstract
Manipulace s objekty je základním úkolem v robotice, který vyžaduje jak přesné vnímání objektů, tak inteligentní rozhodování. Tato diplomová práce zkoumá vizualně-jazykové modely (VLM) a jejich integrací do procesu odhadování úchopových pozic pro různé objekty. V rámci této práce byla vyvinuta metoda s použitím VLM pro generaci 6-DoF úchopových pozic pro dva typy uchopovačů: paralelní uchopovač a vakuový uchopovač. Pro ověření přístupu pro paralelní uchopovač byly úchopové pozice simulovány a porovnány s těmi, které byly vytvořeny metodou založenou pouze na geometrii objektu. Úchopové pozice pro vakuový uchopovač byly testovány na reálné robotické buňce. Výsledky ukazují, že VLM pomáhají snižovat počet kandidátních bodů a snižovat výpočetní náklady tím, že izolují funkční nebo bezpečnější oblasti pro úchop (např. držadla, hrany) na objektech pomoci semantického uvažování.
Object manipulation is a fundamental task for robots in real-world environments. It requires both accurate object perception and intelligent decision-making. This thesis explores the vision language models (VLMs) and their integration into the process of estimating grasp poses for various objects. A software pipeline was developed where a VLM identifies semantically meaningful regions for grasping for two types of grippers: a parallel gripper and a vacuum gripper. To validate this approach, the generated antipodal grasping poses were simulated and compared to the ones produced from the method solely based on the geometry of the object. The grasping poses for a vacuum gripper were tested in a real-world robotic cell. Results demonstrate that VLMs help reducing the number of candidate grasping points and lowering computational costs, by isolating functional or safer areas for grasping (e.g., handles, edges) on the objects.
Object manipulation is a fundamental task for robots in real-world environments. It requires both accurate object perception and intelligent decision-making. This thesis explores the vision language models (VLMs) and their integration into the process of estimating grasp poses for various objects. A software pipeline was developed where a VLM identifies semantically meaningful regions for grasping for two types of grippers: a parallel gripper and a vacuum gripper. To validate this approach, the generated antipodal grasping poses were simulated and compared to the ones produced from the method solely based on the geometry of the object. The grasping poses for a vacuum gripper were tested in a real-world robotic cell. Results demonstrate that VLMs help reducing the number of candidate grasping points and lowering computational costs, by isolating functional or safer areas for grasping (e.g., handles, edges) on the objects.
Description
Citation
Underlying research data set URL
Permanent link
Rights/License
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.