Učení 3D vnímání pomocí neanotovaných dat
Improving 3D perception from Unlabeled Data
Typ dokumentu
disertační prácedoctoral thesis
Autor
Patrik Vacek
Vedoucí práce
Svoboda Tomáš
Oponent práce
Zöllner Marius
Studijní obor
Umělá inteligence a biokybernetikaStudijní program
Elektrotechnika a informatikaInstituce přidělující hodnost
katedra kybernetikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Integrace technologiı́ 3D počı́tačového viděnı́, zejména bodových mraků LiDARu (Light Detection and Ranging), zásadnı́m způsobem revolucionizovala oblasti jako je autonomnı́ řı́zenı́ a robotika.Využitı́m hlubokých architektur učenı́ tyto technologie umožňujı́ strojům vnı́mat a navigovat složitými prostředı́mi relativně přesně a efektivně. Nicméně, supervize hlubokých architektur je omezena náročným a nákladným ručnı́m anotovánı́m, které nenı́ škálovatelné.Tato disertačnı́ práce se zaměřuje na samo-supervizované a polo-supervizované učı́cı́ paradigma.Navržené přı́stupy využı́vajı́ levných neanotovaných či syntetizovaných dat, aby jimi naučené algoritmydosáhly rozumného výkonu bez drahých a neškálovatelných anotacı́. Výzkum klade důraz na úlohy kritické pro autonomnı́ řı́zenı́, jmenovitě sémantické segmentace, detekce objektů a odhadu toku scény.Pro zvýšenı́ škálovatelnosti je navržena samo-supervizovaná, daty řı́zená metoda pro simulacisenzorů LiDAR v hernı́m simulátoru pro sim2real přenos, což umožňuje využitı́ levných syntetických dat během trénovánı́ modelu. Kromě toho je představen nový postup pro augmentaci dat využı́vajı́cı́ předchozı́ anotovaná data, což významně zvyšuje výkon modelu, zejména pro zřı́dka objevujı́cı́ se třı́dy. Dále je využita temporálnı́ složka obsažená v sekvencı́ch dat LiDARu pomocı́ prostorovětemporálnı́ho agregačnı́ho modulu, který zlepšuje polo-supervizované učenı́. Spolu se skupinou učitelských modelů poskytuje nový agregačnı́ modul kvalitnějšı́ pseudo-značky jako signál pro trénink studenta. Postup překonává některé supervizované metody s minimálnı́m množstvı́m ručnı́ch anotacı́. Teze dále navrhuje samo-supervizovanou metodu pro odhad 3D toku scény, která zahrnuje nové ztrátové funkce využivájı́cı́ jak prostorovou, tak časovou konzistenci. Tento přı́stup vykazuje lepšı́ výkon a generalizaci přes různé sady dat než dosavadnı́ metody. Nakonec je navržena společná optimalizace toku se shlukovánı́m instancı́, která dosahuje lepšı́ch výsledků než stav poznánı́, zejména v dynamických scénách s vı́ce nezávisle se pohybujı́cı́mi objekty.Tyto přı́spěvky dohromady posouvajı́ současný stav poznánı́ v oblasti 3D vnı́mánı́ pro autonomnı́ řı́zenı́, snižujı́ náklady na anotace a zlepšujı́ schopnosti generalizace, čı́mž otevı́rajı́ cestu k efektivnějšı́m a adaptabilnějšı́m aplikacı́m 3D vnı́mánı́. The integration of 3D perception technologies, notably LiDAR (Light Detection and Ranging)point clouds, has revolutionized various domains such as autonomous driving and robotics. Leveragingdeep learning architectures, these technologies enable machines to perceive and navigate complex environments accurately and efficiently. However, supervising the deep architectures, is impeded by the laborious and costly manual annotations required and therefore not scalable.This thesis addresses these challenges by focusing on self-supervised and semi-supervised learning paradigms. The proposed approaches capitalize on cheap unlabeled data or data synthesis, to achieve easonable performance without extensive annotations. The research emphasizes tasks crucial for autonomous driving, including semantic segmentation, object detection, and scene flow estimation.To enhance scalability, a self-supervised data-driven method for simulating LiDAR sensors in game simulators for sim2real transfer is proposed, enabling the utilization of inexpensive synthetic data during model training. Additionally, a novel data augmentation framework utilizing preexisting annotated data is introduced, significantly enhancing model performance, particularly for rare classes. Further, the temporal information inherent in LiDAR data sequences is exploited through a spatial-temporal aggregation module, enhancing semi-supervised learning. Together with multiple ensemble teachers, the new aggregation module provides high-quality pseudo-labels for student training, outperforming fully supervised methods with only small subset of manual labels.Furthermore, a self-supervised 3D scene flow framework is developed, incorporating novel consistency losses to improve flow estimation between sequential point clouds. This approach demonstrates superior performance and generalization across diverse driving datasets. Lastly, a joint optimization of flow with instance clustering is proposed, achieving state-of-the-art results, especially in dynamic scenes with multiple independently moving objects.Collectively, these contributions advance the state-of-the-art in 3D perception tasks for autonomousdriving, mitigating annotation costs, enhancing scalability, and improving generalization capabilities,thereby paving the way for more efficient and adaptable real-world applications.
Zobrazit/ otevřít
Kolekce
- Disertační práce - 13000 [704]