3D Object Detection for Autonomous Cars Weakly Supervised by 2D Cues
Detekce 3D objektů pro autonomní auta trénovaná pomocí 2D anotací
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date
Abstract
Přesná detekce objektů v LiDAR datech je klíčovým předpokladem pro robustní a bezpečné autonomní řízení a také robotické aplikace. Trénování 3D detektorů objektů v současnosti vyžaduje manuální anotaci velkého množství trénovacích dat, což je velmi časově náročné a nákladné. V důsledku toho je množství dostupných anotovaných trénovacích dat omezené a navíc tyto anotované datové sady pravděpodobně neobsahují vzácné případy, jednoduše proto, že pravděpodobnost jejich výskytu v tak malé datové sadě je nízká. V této práci navrhujeme metodu pro trénování 3D detektoru objektů bez potřeby lidských anotací, a to využitím existujících vizuálních komponent a konzistence světa kolem nás. Metoda proto může být použita pro trénování 3D detektoru pouze pomocí sběru dat ze senzorů v reálném světě, což je extrémně levné a umožňuje trénování s řádově více daty než tradiční plně supervizované metody. Metoda byla evaluována jak na validačních, tak testovacích datech KITTI, kde překonává všechny předchozí slabě supervizované metody a zmenšuje rozdíl přesnosti s metodami využívajících lidské 3D anotace.
Accurate object detection in LiDAR point clouds is a key prerequisite of robust and safe autonomous driving and robotics applications. Training the 3D object detectors currently involves the need to manually annotate vasts amounts of training data, which is very time-consuming and costly. As a result, the amount of annotated training data readily available is limited, and moreover these annotated datasets likely do not contain edge-case or otherwise rare instances, simply because the probability of them occurring in such a small dataset is low. In this thesis, we propose a method to train 3D object detector without any need for manual annotations, by exploiting existing off-the-shelf vision components and by using the consistency of the world around us. The method can therefore be used to train a 3D detector by only collecting sensor recordings in the real world, which is extremely cheap and allows training using orders of magnitude more data than traditional fully-supervised methods. The method is evaluated on the both KITTI validation and test datasets, where it outperforms all previous weakly-supervised methods and where it narrows the gap when compared to methods using human 3D labels.
Accurate object detection in LiDAR point clouds is a key prerequisite of robust and safe autonomous driving and robotics applications. Training the 3D object detectors currently involves the need to manually annotate vasts amounts of training data, which is very time-consuming and costly. As a result, the amount of annotated training data readily available is limited, and moreover these annotated datasets likely do not contain edge-case or otherwise rare instances, simply because the probability of them occurring in such a small dataset is low. In this thesis, we propose a method to train 3D object detector without any need for manual annotations, by exploiting existing off-the-shelf vision components and by using the consistency of the world around us. The method can therefore be used to train a 3D detector by only collecting sensor recordings in the real world, which is extremely cheap and allows training using orders of magnitude more data than traditional fully-supervised methods. The method is evaluated on the both KITTI validation and test datasets, where it outperforms all previous weakly-supervised methods and where it narrows the gap when compared to methods using human 3D labels.
Description
Keywords
slabě, supervizované, trénování, 3D, objekt, detekce, KITTI, konzistence, weakly, supervised, training, 3D, object, detection, KITTI, temporal, consistency