LiDAR Tokenizer

Tokenizér LiDARových dat

Supervisors

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Date of defense

Research Projects

Organizational Units

Journal Issue

Abstract

V blízké budoucnosti budou LiDARy důležitou součástí bezpečnostních systémů moderních vozů společně s dalšími senzory, jako jsou kamery. Abychom data z LiDARu plně využili tím, že umožníme jejich použití uvnitř Transformer modelů, musí být data rozdělena na jednotlivé díly, nazývané tokeny. V této práci zkoumáme dva autoenkodéry na tokenizaci LiDARových dat, jeden využívající 2D zobrazení vzdáleností a druhý 3D voxely k jejich reprezentaci, a zaměřujeme se na jejich způsoby kvantizace a kódování. Modely porovnáváme a vyhodnocujeme na úloze komprese a následné rekonstrukce dat z datasetů nuScenes a FrontCam. Abychom demonstrovali možnosti využití natrénovaných tokenizérů, rozšířili jsme jimi Transformer model pro generování obrázků MaskGIT na multimodální model generující páry obrázků a LiDARových skenů. S tímto modelem generujeme slibně vypadající výstupy a ukazujeme jeho další využití, jako je generování obrázků podmíněných LiDARovým skenem.

In the near future, LiDAR sensors will play an important role in the safety systems of modern vehicles, complementing other sensors such as cameras. To fully utilize LiDAR point clouds by enabling their usage in Transformer models, the point clouds need to be chunked into separate data units called tokens. In this thesis, we investigate two autoencoder models for LiDAR tokenization using the 2D range image and 3D voxel representations of point clouds, focusing on the quantization method and codebook settings they use. We compare and evaluate the models on the proxy task of point cloud compression and reconstruction using the nuScenes and FrontCam datasets. To demonstrate their applicability, we use the trained LiDAR tokenizers to extend an image synthesis Transformer model MaskGIT into multimodal image-LiDAR synthesis. The model shows promising results and application in tasks such as LiDAR-conditioned image synthesis.

Description

Citation

Underlying research data set URL

Rights/License

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

Endorsement

Review

Supplemented By

Referenced By