Multimodální strojové učení pro automatické porozumění městským prostředím

Vobecký, Antonín

Multimodal Learning for Urban Scene Understanding

Multimodální strojové učení pro automatické porozumění městským prostředím

Authors

Vobecký, Antonín

Supervisors

Šivic, Josef

Reviewers

de Charette Raoul

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Files

Full Text (24.76 MB)

Abstract

Tato práce se zabývá multimodálním stojovým učením s cílem řešit problémy při vývoji modelů strojového učení s omezeným množstvím anotovaných trénovacích dat, což je významná překážka při trénování systémů hlubokého učení. Spoléhání se na velké množtví anotovaných dat s sebou nese finanční náklady a rizika nejednoznačnosti a zkreslení. V oblasti autonomního řízení, kde musí systémy spolehlivě fungovat v různých prostředích, jsou tyto problémy obzvláště závažné: modely často selhávají ve scénářích, které nejsou v datech dostatečně reprezentovány. Současně systémy autonomního řízení generují rozsáhlá neanotovaná multimodální data z mnoha senzorů. Tato data nabízí příležitost zmírnit omezení plynoucí ze spoléhání se na anotované datasety prostřednictvím učení ze slabých anotací. První část této práce se zabývá omezeními datasetů pro detekci chodců, které často postrádají rozmanitost vzhledu a póz chodců a zřídkakdy zahrnují neobvyklé nebo vysoce rizikové scénáře. K překonání těchto omezení jsme vyvinuli metodu rozšíření datasetu pomocí syntetických dat. Tato generativní metoda je podmíněná pózami osob určenými klíčovými body, které zachycují postoj osoby a fungují jako další doplňková vstupní modalita. To umožňuje řízené generování městských scén s chodci, které simulují vzácné nebo neviděné situace. Náš přístup zlepšuje výkonnost detektoru chodců na několika datasetech, zejména v náročných podmínkách, jako jsou špatně osvětlená prostředí. Druhá část se zaměřuje na sémantickou segmentaci městských scén. V této práci eliminujeme ruční anotování dat tím, že používáme pouze surová data z kamer namontovaných na vozidlech a senzorů LiDAR v crossmodálním samoučení. Konkrétně využíváme modul pro nalezení objektů v datech z LiDARu, který generuje návrhy prostorově konzistentních pozic objektů. Tyto 3D návrhy jsou zarovnány s odpovídajícími snímky a seskupeny do sémantických pseudotříd, které slouží jako pseudoznačky v našem učitel-student schématu. Robustnost demonstrujeme vyhodnocením schopnosti generalizace na čtyřech různých testovacích sadách bez použití dolaďování modelu. Nakonec navrhujeme metodu pro 3D sémantickou predikci obsazenosti okolí, který umožňuje 3D segmentaci a vyhledávání pomocí jazykových dotazů. K dosažení tohoto cíle navrhujeme novou architekturu modelu a samoučící algoritmus používající tři datové modality. Tento algoritmus integruje informace z obrázků, jazyka a 3D bodů z LiDARu. Během inference umožňuje tento přístup segmentaci obsazeného prostoru z RGB snímků pomocí jazykových dotazů. Naše metoda vykazuje významné zlepšení v několika úlohách s jazykovými dotazy a dosahuje konkurenceschopných výsledků ve srovnání s metodami, které jsou učeny pomocí manuálně anotovaných dat.

This thesis investigates multimodal learning to address challenges in developing machine learning models with limited annotated training data, a significant bottleneck in training deep learning systems. Reliance on large labeled datasets entails financial costs and risks of ambiguity and bias. In autonomous driving, where systems must operate reliably across diverse environments, these issues are particularly acute: models often fail in underrepresented scenarios. Simultaneously, autonomous driving setups generate vast unannotated multimodal data from multiple sensors. This data offers an opportunity to alleviate the limitations of relying on annotated datasets through weakly supervised learning. The first part of this thesis addresses limitations in pedestrian detection datasets, which often lack diversity in pedestrian appearances and poses and rarely include unusual or high-risk scenarios. To overcome these constraints, we developed a synthetic data augmentation method conditioned on person poses specified by keypoints, acting as an additional complementary input modality. This enables a controlled generation of urban scenes with pedestrians, simulating rare or unseen situations. Our approach improves the performance of the pedestrian detector in multiple datasets, particularly in challenging conditions such as low-light environments. The second part focuses on pixel-wise semantic segmentation of urban scenes. We eliminate manual labeling by using only raw, uncurated data from vehicle-mounted cameras and LiDAR sensors in a cross-modal self-supervised setup. Specifically, we employ a LiDAR-based object proposal module to generate proposals for spatially consistent objects. These 3D proposals are aligned with corresponding images and grouped into semantically meaningful pseudo-classes, serving as pseudo-labels in our teacher-student framework. We demonstrate robustness by evaluating generalization capabilities on four distinct test datasets without fine-tuning. Finally, we propose a framework for open-vocabulary 3D semantic occupancy prediction, enabling 3D grounding, segmentation, and retrieval with free-form language queries. To achieve this, we introduce a novel model architecture and a tri-modal self-supervised learning algorithm that integrates information from images, language, and LiDAR point clouds. During inference, the approach allows the segmentation of occupied space from RGB images in an open-vocabulary manner. Our method demonstrates significant improvements across several open-vocabulary tasks and performs competitively with supervised counterparts.

Keywords

autonomní řízení, multimodální strojové učení, segmentace pomocí otevřeného slovníku, učení ze slabých anotací, 3D reprezentace z 2D obrazu, autonomous driving, multi-modal learning, open-vocabulary segmentation, weakly-supervised learning, 2D-to-3D

Permanent link

http://hdl.handle.net/10467/121384

Rights/License

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

Collections

Doctoral Theses - 13000

Full item page

Multimodal Learning for Urban Scene Understanding

Multimodální strojové učení pro automatické porozumění městským prostředím

Authors

Supervisors

Reviewers

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

Date of defense

Files

Research Projects

Organizational Units

Journal Issue

Abstract

Description

Keywords

Citation

Underlying research data set URL

Permanent link

Rights/License

Collections

Endorsement

Review

Supplemented By

Referenced By