LiDAR Tokenizer
Tokenizér LiDARových dat
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date
Abstract
V blízké budoucnosti budou LiDARy důležitou součástí bezpečnostních systémů moderních vozů společně s dalšími senzory, jako jsou kamery. Abychom data z LiDARu plně využili tím, že umožníme jejich použití uvnitř Transformer modelů, musí být data rozdělena na jednotlivé díly, nazývané tokeny. V této práci zkoumáme dva autoenkodéry na tokenizaci LiDARových dat, jeden využívající 2D zobrazení vzdáleností a druhý 3D voxely k jejich reprezentaci, a zaměřujeme se na jejich způsoby kvantizace a kódování. Modely porovnáváme a vyhodnocujeme na úloze komprese a následné rekonstrukce dat z datasetů nuScenes a FrontCam. Abychom demonstrovali možnosti využití natrénovaných tokenizérů, rozšířili jsme jimi Transformer model pro generování obrázků MaskGIT na multimodální model generující páry obrázků a LiDARových skenů. S tímto modelem generujeme slibně vypadající výstupy a ukazujeme jeho další využití, jako je generování obrázků podmíněných LiDARovým skenem.
In the near future, LiDAR sensors will play an important role in the safety systems of modern vehicles, complementing other sensors such as cameras. To fully utilize LiDAR point clouds by enabling their usage in Transformer models, the point clouds need to be chunked into separate data units called tokens. In this thesis, we investigate two autoencoder models for LiDAR tokenization using the 2D range image and 3D voxel representations of point clouds, focusing on the quantization method and codebook settings they use. We compare and evaluate the models on the proxy task of point cloud compression and reconstruction using the nuScenes and FrontCam datasets. To demonstrate their applicability, we use the trained LiDAR tokenizers to extend an image synthesis Transformer model MaskGIT into multimodal image-LiDAR synthesis. The model shows promising results and application in tasks such as LiDAR-conditioned image synthesis.
In the near future, LiDAR sensors will play an important role in the safety systems of modern vehicles, complementing other sensors such as cameras. To fully utilize LiDAR point clouds by enabling their usage in Transformer models, the point clouds need to be chunked into separate data units called tokens. In this thesis, we investigate two autoencoder models for LiDAR tokenization using the 2D range image and 3D voxel representations of point clouds, focusing on the quantization method and codebook settings they use. We compare and evaluate the models on the proxy task of point cloud compression and reconstruction using the nuScenes and FrontCam datasets. To demonstrate their applicability, we use the trained LiDAR tokenizers to extend an image synthesis Transformer model MaskGIT into multimodal image-LiDAR synthesis. The model shows promising results and application in tasks such as LiDAR-conditioned image synthesis.