Učení 3D vnímání pomocí neanotovaných dat

Vacek, Patrik

Improving 3D perception from Unlabeled Data

Učení 3D vnímání pomocí neanotovaných dat

Authors

Vacek, Patrik

Supervisors

Svoboda, Tomáš

Reviewers

Zöllner Marius

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Files

Full Text (26.84 MB)

Abstract

Integrace technologiı́ 3D počı́tačového viděnı́, zejména bodových mraků LiDARu (Light Detection and Ranging), zásadnı́m způsobem revolucionizovala oblasti jako je autonomnı́ řı́zenı́ a robotika.Využitı́m hlubokých architektur učenı́ tyto technologie umožňujı́ strojům vnı́mat a navigovat složitými prostředı́mi relativně přesně a efektivně. Nicméně, supervize hlubokých architektur je omezena náročným a nákladným ručnı́m anotovánı́m, které nenı́ škálovatelné.Tato disertačnı́ práce se zaměřuje na samo-supervizované a polo-supervizované učı́cı́ paradigma.Navržené přı́stupy využı́vajı́ levných neanotovaných či syntetizovaných dat, aby jimi naučené algoritmydosáhly rozumného výkonu bez drahých a neškálovatelných anotacı́. Výzkum klade důraz na úlohy kritické pro autonomnı́ řı́zenı́, jmenovitě sémantické segmentace, detekce objektů a odhadu toku scény.Pro zvýšenı́ škálovatelnosti je navržena samo-supervizovaná, daty řı́zená metoda pro simulacisenzorů LiDAR v hernı́m simulátoru pro sim2real přenos, což umožňuje využitı́ levných syntetických dat během trénovánı́ modelu. Kromě toho je představen nový postup pro augmentaci dat využı́vajı́cı́ předchozı́ anotovaná data, což významně zvyšuje výkon modelu, zejména pro zřı́dka objevujı́cı́ se třı́dy. Dále je využita temporálnı́ složka obsažená v sekvencı́ch dat LiDARu pomocı́ prostorovětemporálnı́ho agregačnı́ho modulu, který zlepšuje polo-supervizované učenı́. Spolu se skupinou učitelských modelů poskytuje nový agregačnı́ modul kvalitnějšı́ pseudo-značky jako signál pro trénink studenta. Postup překonává některé supervizované metody s minimálnı́m množstvı́m ručnı́ch anotacı́. Teze dále navrhuje samo-supervizovanou metodu pro odhad 3D toku scény, která zahrnuje nové ztrátové funkce využivájı́cı́ jak prostorovou, tak časovou konzistenci. Tento přı́stup vykazuje lepšı́ výkon a generalizaci přes různé sady dat než dosavadnı́ metody. Nakonec je navržena společná optimalizace toku se shlukovánı́m instancı́, která dosahuje lepšı́ch výsledků než stav poznánı́, zejména v dynamických scénách s vı́ce nezávisle se pohybujı́cı́mi objekty.Tyto přı́spěvky dohromady posouvajı́ současný stav poznánı́ v oblasti 3D vnı́mánı́ pro autonomnı́ řı́zenı́, snižujı́ náklady na anotace a zlepšujı́ schopnosti generalizace, čı́mž otevı́rajı́ cestu k efektivnějšı́m a adaptabilnějšı́m aplikacı́m 3D vnı́mánı́.

The integration of 3D perception technologies, notably LiDAR (Light Detection and Ranging)point clouds, has revolutionized various domains such as autonomous driving and robotics. Leveragingdeep learning architectures, these technologies enable machines to perceive and navigate complex environments accurately and efficiently. However, supervising the deep architectures, is impeded by the laborious and costly manual annotations required and therefore not scalable.This thesis addresses these challenges by focusing on self-supervised and semi-supervised learning paradigms. The proposed approaches capitalize on cheap unlabeled data or data synthesis, to achieve easonable performance without extensive annotations. The research emphasizes tasks crucial for autonomous driving, including semantic segmentation, object detection, and scene flow estimation.To enhance scalability, a self-supervised data-driven method for simulating LiDAR sensors in game simulators for sim2real transfer is proposed, enabling the utilization of inexpensive synthetic data during model training. Additionally, a novel data augmentation framework utilizing preexisting annotated data is introduced, significantly enhancing model performance, particularly for rare classes. Further, the temporal information inherent in LiDAR data sequences is exploited through a spatial-temporal aggregation module, enhancing semi-supervised learning. Together with multiple ensemble teachers, the new aggregation module provides high-quality pseudo-labels for student training, outperforming fully supervised methods with only small subset of manual labels.Furthermore, a self-supervised 3D scene flow framework is developed, incorporating novel consistency losses to improve flow estimation between sequential point clouds. This approach demonstrates superior performance and generalization across diverse driving datasets. Lastly, a joint optimization of flow with instance clustering is proposed, achieving state-of-the-art results, especially in dynamic scenes with multiple independently moving objects.Collectively, these contributions advance the state-of-the-art in 3D perception tasks for autonomousdriving, mitigating annotation costs, enhancing scalability, and improving generalization capabilities,thereby paving the way for more efficient and adaptable real-world applications.

Keywords

3D počítačové vidění, LiDAR, nesupervizované učení, Autonomní řízení, 3D perception, LiDAR, Unsupervised learning, Self-supervision, Autonomous Driving

Permanent link

http://hdl.handle.net/10467/114530

Rights/License

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

Collections

Doctoral Theses - 13000

Full item page

Improving 3D perception from Unlabeled Data

Učení 3D vnímání pomocí neanotovaných dat

Authors

Supervisors

Reviewers

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

Date of defense

Files

Research Projects

Organizational Units

Journal Issue

Abstract

Description

Keywords

Citation

Underlying research data set URL

Permanent link

Rights/License

Collections

Endorsement

Review

Supplemented By

Referenced By