Zobrazit minimální záznam

Improving 3D perception from Unlabeled Data



dc.contributor.advisorSvoboda Tomáš
dc.contributor.authorPatrik Vacek
dc.date.accessioned2024-06-18T10:21:30Z
dc.date.available2024-06-18T10:21:30Z
dc.date.issued2024-04-16
dc.identifierKOS-1019473666805
dc.identifier.urihttp://hdl.handle.net/10467/114530
dc.description.abstractIntegrace technologiı́ 3D počı́tačového viděnı́, zejména bodových mraků LiDARu (Light Detection and Ranging), zásadnı́m způsobem revolucionizovala oblasti jako je autonomnı́ řı́zenı́ a robotika.Využitı́m hlubokých architektur učenı́ tyto technologie umožňujı́ strojům vnı́mat a navigovat složitými prostředı́mi relativně přesně a efektivně. Nicméně, supervize hlubokých architektur je omezena náročným a nákladným ručnı́m anotovánı́m, které nenı́ škálovatelné.Tato disertačnı́ práce se zaměřuje na samo-supervizované a polo-supervizované učı́cı́ paradigma.Navržené přı́stupy využı́vajı́ levných neanotovaných či syntetizovaných dat, aby jimi naučené algoritmydosáhly rozumného výkonu bez drahých a neškálovatelných anotacı́. Výzkum klade důraz na úlohy kritické pro autonomnı́ řı́zenı́, jmenovitě sémantické segmentace, detekce objektů a odhadu toku scény.Pro zvýšenı́ škálovatelnosti je navržena samo-supervizovaná, daty řı́zená metoda pro simulacisenzorů LiDAR v hernı́m simulátoru pro sim2real přenos, což umožňuje využitı́ levných syntetických dat během trénovánı́ modelu. Kromě toho je představen nový postup pro augmentaci dat využı́vajı́cı́ předchozı́ anotovaná data, což významně zvyšuje výkon modelu, zejména pro zřı́dka objevujı́cı́ se třı́dy. Dále je využita temporálnı́ složka obsažená v sekvencı́ch dat LiDARu pomocı́ prostorovětemporálnı́ho agregačnı́ho modulu, který zlepšuje polo-supervizované učenı́. Spolu se skupinou učitelských modelů poskytuje nový agregačnı́ modul kvalitnějšı́ pseudo-značky jako signál pro trénink studenta. Postup překonává některé supervizované metody s minimálnı́m množstvı́m ručnı́ch anotacı́. Teze dále navrhuje samo-supervizovanou metodu pro odhad 3D toku scény, která zahrnuje nové ztrátové funkce využivájı́cı́ jak prostorovou, tak časovou konzistenci. Tento přı́stup vykazuje lepšı́ výkon a generalizaci přes různé sady dat než dosavadnı́ metody. Nakonec je navržena společná optimalizace toku se shlukovánı́m instancı́, která dosahuje lepšı́ch výsledků než stav poznánı́, zejména v dynamických scénách s vı́ce nezávisle se pohybujı́cı́mi objekty.Tyto přı́spěvky dohromady posouvajı́ současný stav poznánı́ v oblasti 3D vnı́mánı́ pro autonomnı́ řı́zenı́, snižujı́ náklady na anotace a zlepšujı́ schopnosti generalizace, čı́mž otevı́rajı́ cestu k efektivnějšı́m a adaptabilnějšı́m aplikacı́m 3D vnı́mánı́.cze
dc.description.abstractThe integration of 3D perception technologies, notably LiDAR (Light Detection and Ranging)point clouds, has revolutionized various domains such as autonomous driving and robotics. Leveragingdeep learning architectures, these technologies enable machines to perceive and navigate complex environments accurately and efficiently. However, supervising the deep architectures, is impeded by the laborious and costly manual annotations required and therefore not scalable.This thesis addresses these challenges by focusing on self-supervised and semi-supervised learning paradigms. The proposed approaches capitalize on cheap unlabeled data or data synthesis, to achieve easonable performance without extensive annotations. The research emphasizes tasks crucial for autonomous driving, including semantic segmentation, object detection, and scene flow estimation.To enhance scalability, a self-supervised data-driven method for simulating LiDAR sensors in game simulators for sim2real transfer is proposed, enabling the utilization of inexpensive synthetic data during model training. Additionally, a novel data augmentation framework utilizing preexisting annotated data is introduced, significantly enhancing model performance, particularly for rare classes. Further, the temporal information inherent in LiDAR data sequences is exploited through a spatial-temporal aggregation module, enhancing semi-supervised learning. Together with multiple ensemble teachers, the new aggregation module provides high-quality pseudo-labels for student training, outperforming fully supervised methods with only small subset of manual labels.Furthermore, a self-supervised 3D scene flow framework is developed, incorporating novel consistency losses to improve flow estimation between sequential point clouds. This approach demonstrates superior performance and generalization across diverse driving datasets. Lastly, a joint optimization of flow with instance clustering is proposed, achieving state-of-the-art results, especially in dynamic scenes with multiple independently moving objects.Collectively, these contributions advance the state-of-the-art in 3D perception tasks for autonomousdriving, mitigating annotation costs, enhancing scalability, and improving generalization capabilities,thereby paving the way for more efficient and adaptable real-world applications.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subject3D počítačové viděnícze
dc.subjectLiDARcze
dc.subjectnesupervizované učenícze
dc.subjectAutonomní řízenícze
dc.subject3D perceptioneng
dc.subjectLiDAReng
dc.subjectUnsupervised learningeng
dc.subjectSelf-supervisioneng
dc.subjectAutonomous Drivingeng
dc.titleUčení 3D vnímání pomocí neanotovaných datcze
dc.titleImproving 3D perception from Unlabeled Dataeng
dc.typedisertační prácecze
dc.typedoctoral thesiseng
dc.contributor.refereeZöllner Marius
theses.degree.disciplineUmělá inteligence a biokybernetikacze
theses.degree.grantorkatedra kybernetikycze
theses.degree.programmeElektrotechnika a informatikacze


Soubory tohoto záznamu


Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam