Generování velkého fotorealistického datasetu pro vizuální estimaci orientace více UAV
Large Photorealistic Dataset Generation for Visual Orientation Estimation of UAVs
Type of document
bakalářská prácebachelor thesis
Author
Ondřej Víta
Supervisor
Pliska Michal
Opponent
Rollo Milan
Study program
Kybernetika a robotikaInstitutions assigning rank
katedra kybernetikyRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Tato práce se zabývá nedostatkem velkých a různorodých datasetů pro učení 6-DoF orientace UAV z monokulárních RGB snímků a představuje plně automatizovaný, škálovatelný pipeline v Unreal Engine 5. Náš systém procedurálně generuje fotorealistická tréninková data s rozsáhlou randomizací prostředí napříč 26 modely UAV, proměnlivými světelnými podmínkami, počasím (déšť, mlha, bouřky), pozadími fotek, rozmazáním fotek pohybem a okluzemi, a vytváří jak statické snímky, tak temporálně koherentní letové sekvence pomocí randomizovaného vytváření letových trajektorií (Rapidly-exploring Random Trees + trajectory smoothing), čímž získáváme přesné ground-truth pozice přímo ze simulátoru. Integrovali jsme single-shot YOLOv5-6D neuronovou síť pro estimaci 6D pozice v reálném čase, dosahující rychlosti inference přibližně 11 FPS na Ryzen 7 5800U s Radeon grafikou. Při in-domain evaluaci na reálném datasetu model dosahuje 92,41% 2D corner přesnosti (5 px), průměrné IoU 86,38 % a 90 % predikcí úhlové chyby pod 2,74°. Pokud je model neuronové sítě trénován i testován čistě na syntetických datech, dosahuje 15,87 % 2D corner přesnosti a 42,39 % průměrné IoU. V cross-domain experimentech, kdy se trénuje na syntetických datech a testuje na reálných snímcích, model dosahuje 3,51 % 2D corner přesnosti a 41,80 % průměrné IoU, což výrazně překonává opačnou konfiguraci (0,63 % 2D corner přesnost, 14,69 % průměrné IoU) a demonstruje, že výrazná randomizace prostředí přináší určitou robustnost vůči neznámým reálným scénám. Tento přístup odhalil single-focus charakter reálného datasetu s jedním modelem a navrhl vysoce různorodý simulated dataset, který je použitelný v neznámých prostředích. To otevírá nové možnosti v cross-domain nasazení a naznačuje kroky směrem k plně syntetickým datasetům. This thesis tackles the scarcity of large, diverse datasets for learning 6-DoF orientation of UAVs from monocular RGB imagery by introducing a fully automated, scalable pipeline in Unreal Engine 5. Our system procedurally generates photorealistic training data with extensive domain randomisation sampling across 26 UAV models, varying lighting conditions, weather effects (rain, fog, storms), backgrounds, motion blur, and occlusions, and produces both static frames and temporally coherent flight sequences via randomised path planning (Rapidly exploring Random Trees plus trajectory smoothing), yielding precise ground-truth poses straight from the simulator. We integrate the single-shot YOLOv5-6D network for real-time 6D pose estimation, achieving an end-to-end inference speed of approximately 11 FPS on a Ryzen 7 5800U with Radeon graphics. Under in-domain evaluation on a real-world dataset, the model attains 92.41% 2D corner accuracy (5 px), a mean IoU of 86.38%, and 90% of angular errors below 2.74°. When trained and tested purely on synthetic data, it achieves 15.87% 2D accuracy and 42.39% mean IoU. In cross-domain experiments, training on synthetic data and testing on real-world images yields 3.51% 2D accuracy and 41.80% IoU, substantially outperforming the reverse setup (0.63% accuracy, 14.69% IoU) and demonstrating that heavy domain randomisation imparts some robustness to unseen real scenes. The approach revealed the single-focus nature of the single-drone real-world dataset and proposed a highly diverse simulated dataset that can work in unknown environments. This further opens new possibilities in cross-domain usage and introduces possible steps towards fully synthetic datasets.
Collections
- Bakalářské práce - 13133 [851]