Tokenizér LiDARových dat

V blízké budoucnosti budou LiDARy důležitou součástí bezpečnostních systémů moderních vozů společně s dalšími senzory, jako jsou kamery. Abychom data z LiDARu plně využili tím, že umožníme jejich použití uvnitř Transformer modelů, musí být data rozdělena na jednotlivé díly, nazývané tokeny. V této práci zkoumáme dva autoenkodéry na tokenizaci LiDARových dat, jeden využívající 2D zobrazení vzdáleností a druhý 3D voxely k jejich reprezentaci, a zaměřujeme se na jejich způsoby kvantizace a kódování. Modely porovnáváme a vyhodnocujeme na úloze komprese a následné rekonstrukce dat z datasetů nuScenes a FrontCam. Abychom demonstrovali možnosti využití natrénovaných tokenizérů, rozšířili jsme jimi Transformer model pro generování obrázků MaskGIT na multimodální model generující páry obrázků a LiDARových skenů. S tímto modelem generujeme slibně vypadající výstupy a ukazujeme jeho další využití, jako je generování obrázků podmíněných LiDARovým skenem.

In the near future, LiDAR sensors will play an important role in the safety systems of modern vehicles, complementing other sensors such as cameras. To fully utilize LiDAR point clouds by enabling their usage in Transformer models, the point clouds need to be chunked into separate data units called tokens. In this thesis, we investigate two autoencoder models for LiDAR tokenization using the 2D range image and 3D voxel representations of point clouds, focusing on the quantization method and codebook settings they use. We compare and evaluate the models on the proxy task of point cloud compression and reconstruction using the nuScenes and FrontCam datasets. To demonstrate their applicability, we use the trained LiDAR tokenizers to extend an image synthesis Transformer model MaskGIT into multimodal image-LiDAR synthesis. The model shows promising results and application in tasks such as LiDAR-conditioned image synthesis.

Keywords

LiDAR, tokenizace, zobrazení vzdáleností, voxely, generování obrázků, multimodální, LiDAR, tokenization, range image, voxels, image synthesis, multimodal

URI

http://hdl.handle.net/10467/120372

Collections

Master Theses - 13133

Full item page

LiDAR Tokenizer