Analýza open-set detektorů objektů pro autonomní auta
Open-set object detector analysis for autonomous driving
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Vojtěch Mareček
Vedoucí práce
Neumann Lukáš
Oponent práce
Svoboda Tomáš
Studijní program
Kybernetika a robotikaInstituce přidělující hodnost
katedra kybernetikyObhájeno
2025-06-18Práva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Tato práce zkoumá detekční schopnosti modelu Grounding DINO, špičkového detektoru objektů s otevřenou množinou tříd, v oblasti autonomního řízení. Hlavním cílem je vyhodnotit jeho výkon na standardních datových sadách, posoudit vliv textových promptů na přesnost detekce a prozkoumat jeho potenciál pro zlepšení tradičních metod detekce s uzavřenou množinou tříd. Je uveden přehled metod detekce objektů, evaluačních metrik a datových sad a model Grounding DINO je představen v kontextu jazykově řízené detekce objektů. Jeho výkon je hodnocen při různých prahových hodnotách pro detekční boxy a variantách textových promptů, přičemž dosahuje konkurenceschopných výsledků ve srovnání s detektory s uzavřenou množinou tříd na datových sadách KITTI a Waymo. Tradiční detekce s uzavřenou množinou tříd je dále vylepšena kombinací modelů a vylepšením anotací, následovaným doladěním modelu MViTv2-T pomocí těchto vylepšených anotací. Závěry této práce poukazují na potenciál modelu Grounding DINO posunout detekci objektů s otevřenou množinou tříd v autonomním řízení kupředu a otevřít cestu k adaptivnějším detekčním systémům řízeným přirozeným jazykem. This thesis investigates the detection capabilities of Grounding DINO, a state-of-the-art open-set object detector, within the domain of autonomous driving. The primary objective is to evaluate its performance on standard datasets, assess the influence of textual prompts on detection accuracy, and explore its potential to enhance traditional closed-set detection methods. An overview of object detection methods, metrics and datasets is provided, and Grounding DINO is introduced in the context of language-aware object detection. Its performance is evaluated under different box thresholds and variants of textual prompts, demonstrating competitive results compared to closed-set detectors on both the KITTI and Waymo datasets. Additionally, traditional closed-set object detection is further improved through model combination and annotation refinement followed by the fine-tuning of MViTv2-T using the enhanced annotations. The findings highlight the potential of Grounding DINO to advance open-vocabulary object detection in autonomous driving, paving the way for more adaptive, language-guided perception systems.
Kolekce
- Bakalářské práce - 13133 [854]