Tokenizér LiDARových dat
LiDAR Tokenizer
Typ dokumentu
diplomová prácemaster thesis
Autor
Adam Herold
Vedoucí práce
Svoboda Tomáš
Oponent práce
Caesar Holger
Studijní program
Kybernetika a robotikaInstituce přidělující hodnost
katedra kybernetikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
V blízké budoucnosti budou LiDARy důležitou součástí bezpečnostních systémů moderních vozů společně s dalšími senzory, jako jsou kamery. Abychom data z LiDARu plně využili tím, že umožníme jejich použití uvnitř Transformer modelů, musí být data rozdělena na jednotlivé díly, nazývané tokeny. V této práci zkoumáme dva autoenkodéry na tokenizaci LiDARových dat, jeden využívající 2D zobrazení vzdáleností a druhý 3D voxely k jejich reprezentaci, a zaměřujeme se na jejich způsoby kvantizace a kódování. Modely porovnáváme a vyhodnocujeme na úloze komprese a následné rekonstrukce dat z datasetů nuScenes a FrontCam. Abychom demonstrovali možnosti využití natrénovaných tokenizérů, rozšířili jsme jimi Transformer model pro generování obrázků MaskGIT na multimodální model generující páry obrázků a LiDARových skenů. S tímto modelem generujeme slibně vypadající výstupy a ukazujeme jeho další využití, jako je generování obrázků podmíněných LiDARovým skenem. In the near future, LiDAR sensors will play an important role in the safety systems of modern vehicles, complementing other sensors such as cameras. To fully utilize LiDAR point clouds by enabling their usage in Transformer models, the point clouds need to be chunked into separate data units called tokens. In this thesis, we investigate two autoencoder models for LiDAR tokenization using the 2D range image and 3D voxel representations of point clouds, focusing on the quantization method and codebook settings they use. We compare and evaluate the models on the proxy task of point cloud compression and reconstruction using the nuScenes and FrontCam datasets. To demonstrate their applicability, we use the trained LiDAR tokenizers to extend an image synthesis Transformer model MaskGIT into multimodal image-LiDAR synthesis. The model shows promising results and application in tasks such as LiDAR-conditioned image synthesis.
Kolekce
- Diplomové práce - 13133 [519]