Ensemble Detection Models for LiDAR Point Clouds
Sdružené detekční modely pro LiDARové mraky bodů
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date
Abstract
Řešíme problém z oblasti počítačového vidění, kde se zaměřujeme na sdružené detekční metody neuronových sítí pro Li- DARové mraky bodů. Neuronové sítě jsou často naučené na konkrétní situace, což v některých případech výrazně zhoršuje jejich predikční schopnost. Úspěšnost pre- dikce na LiDARových mračnech bodů se zhoršuje s narůstající vzdáleností naskeno- vaných bodů. Sdružujeme modely z více pohledů, kdy jednotlivé modely pracují v různých projekcích a spojení probíhá v jedná datové representaci. První pohled se nazývá frontview, kdy se jedná o trans- formaci kanonických souřadnic mračna Li- DARových bodů do sférických souřadnic. Druhým pohledem je projekce naskenova- ných bodů do roviny xy s názvem Bird’s Eye View (BEV), neboli "ptačí pohled". V obou doménách pracují modely zamě- řené na konkrétní oblast či rozsah vzdá- leností. Dále využíváme semi-supervised učící techniku nazývanou pseudo-labelling, abychom vygenerovali label pomocí celého sdruženého modelu a tím dosáhli lepších výsledků v průměrném Jaccardově indexu oproti baseline architektuře.
We address the problem of the ensemble neural networks in the LiDAR pointclouds. Neural networks are sometimes saturated for specific situations meaning they per- form worse on some scenarios due to ca- pacity issues. The prediction results in the LiDAR point cloud domain are deteriorat- ing with increasing distance due to the low density of the measurement in the remote areas. We are using a multi-view ensem- ble, which consists of detection models operating on a separate view and merging the transformation into one data represen- tation. We are using frontview projection, which is the transformation of the canoni- cal coordinates of the LiDAR point cloud to the spherical coordinates. The second view is the projection of scan points to xy plane called Bird’s Eye View (BEV). In the both projections we merge mod- els focusing on specific areas or distance range. We further exploit semi-supervised learning approach called pseudo-labelling in order to generate labels from the ensem- ble for baseline improvement. All meth- ods are evaluated on semantic segmenta- tion tasks in autonomous driving scenarios and achieve improvement in terms of IoU against the baseline architecture.
We address the problem of the ensemble neural networks in the LiDAR pointclouds. Neural networks are sometimes saturated for specific situations meaning they per- form worse on some scenarios due to ca- pacity issues. The prediction results in the LiDAR point cloud domain are deteriorat- ing with increasing distance due to the low density of the measurement in the remote areas. We are using a multi-view ensem- ble, which consists of detection models operating on a separate view and merging the transformation into one data represen- tation. We are using frontview projection, which is the transformation of the canoni- cal coordinates of the LiDAR point cloud to the spherical coordinates. The second view is the projection of scan points to xy plane called Bird’s Eye View (BEV). In the both projections we merge mod- els focusing on specific areas or distance range. We further exploit semi-supervised learning approach called pseudo-labelling in order to generate labels from the ensem- ble for baseline improvement. All meth- ods are evaluated on semantic segmenta- tion tasks in autonomous driving scenarios and achieve improvement in terms of IoU against the baseline architecture.