Fusion of data from dual RGB sensors and thermal camera
Fúze dat ze duálních senzorů RGB a termo kamery
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
Abstract
V oblasti námořní navigace je při vyhýbání se kolizím tradičně spoléháno na lidský zrak, který je ale omezený především v nepříznivých podmínkách. Tato práce se zabývá integrací multimodální detekce objektů pomocí termální a RGB obrazové kamery pro zlepšení situačního povědomí v těchto podmínkách. Je představen přístup založený na hlubokém učení pro vyhledávání korespondencí a odhad homografie, který umožňuje přesné zarovnání a propagaci anotací skrz modality. Toto zarovnání je následně použito k vytvoření datasetu. Na tomto datasetu je natrénováno a vyhodnoceno několik state-of-the-art architektur a architektur navržených v této práci. Výsledky benchmarků ukázaly, že využití druhé modality zlepšuje výkon napříč různými metrikami. Zvláště architektury založené na transformerech, jako je CMX, dosahují nejvyššího výkonu, avšak za cenu zvýšené složitosti a delších časů inferencí. Jednodušší modely, jako náš navržený WNet-S, vykazují konkurenceschopné výsledky s lepší efektivitou, což naznačuje, že složitost ne vždy koreluje s lepším výkonem.
In the maritime domain, navigation and collision avoidance traditionally rely on human vision, which is limited, especially under adverse environmental conditions. This thesis addresses the integration of multimodal object detection using thermal and RGB images to enhance situational awareness in these environments. A deep learning-based approach is introduced for correspondence search and homography estimation, enabling precise alignment and annotation propagation. This alignment is subsequently used to create a high-quality dataset. Several state-of-the-art architectures and our proposed architectures are trained and evaluated on this dataset, revealing that leveraging a second modality leads to improved performance across various metrics. Notably, transformer-based architectures like CMX show the highest performance but at the cost of increased complexity and inference times. Simpler models, such as our proposed WNet-S, demonstrate competitive results with better efficiency, indicating that complexity does not always correlate with better performance.
In the maritime domain, navigation and collision avoidance traditionally rely on human vision, which is limited, especially under adverse environmental conditions. This thesis addresses the integration of multimodal object detection using thermal and RGB images to enhance situational awareness in these environments. A deep learning-based approach is introduced for correspondence search and homography estimation, enabling precise alignment and annotation propagation. This alignment is subsequently used to create a high-quality dataset. Several state-of-the-art architectures and our proposed architectures are trained and evaluated on this dataset, revealing that leveraging a second modality leads to improved performance across various metrics. Notably, transformer-based architectures like CMX show the highest performance but at the cost of increased complexity and inference times. Simpler models, such as our proposed WNet-S, demonstrate competitive results with better efficiency, indicating that complexity does not always correlate with better performance.
Description
Citation
Underlying research data set URL
Permanent link
Rights/License
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.