3D Object Detection for Autonomous Cars Weakly Supervised by 2D Cues

Detekce 3D objektů pro autonomní auta trénovaná pomocí 2D anotací

Supervisors

Reviewers

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Research Projects

Organizational Units

Journal Issue

Abstract

Přesná detekce objektů v LiDAR datech je klíčovým předpokladem pro robustní a bezpečné autonomní řízení a také robotické aplikace. Trénování 3D detektorů objektů v současnosti vyžaduje manuální anotaci velkého množství trénovacích dat, což je velmi časově náročné a nákladné. V důsledku toho je množství dostupných anotovaných trénovacích dat omezené a navíc tyto anotované datové sady pravděpodobně neobsahují vzácné případy, jednoduše proto, že pravděpodobnost jejich výskytu v tak malé datové sadě je nízká. V této práci navrhujeme metodu pro trénování 3D detektoru objektů bez potřeby lidských anotací, a to využitím existujících vizuálních komponent a konzistence světa kolem nás. Metoda proto může být použita pro trénování 3D detektoru pouze pomocí sběru dat ze senzorů v reálném světě, což je extrémně levné a umožňuje trénování s řádově více daty než tradiční plně supervizované metody. Metoda byla evaluována jak na validačních, tak testovacích datech KITTI, kde překonává všechny předchozí slabě supervizované metody a zmenšuje rozdíl přesnosti s metodami využívajících lidské 3D anotace.

Accurate object detection in LiDAR point clouds is a key prerequisite of robust and safe autonomous driving and robotics applications. Training the 3D object detectors currently involves the need to manually annotate vasts amounts of training data, which is very time-consuming and costly. As a result, the amount of annotated training data readily available is limited, and moreover these annotated datasets likely do not contain edge-case or otherwise rare instances, simply because the probability of them occurring in such a small dataset is low. In this thesis, we propose a method to train 3D object detector without any need for manual annotations, by exploiting existing off-the-shelf vision components and by using the consistency of the world around us. The method can therefore be used to train a 3D detector by only collecting sensor recordings in the real world, which is extremely cheap and allows training using orders of magnitude more data than traditional fully-supervised methods. The method is evaluated on the both KITTI validation and test datasets, where it outperforms all previous weakly-supervised methods and where it narrows the gap when compared to methods using human 3D labels.

Description

Citation

Endorsement

Review

Supplemented By

Referenced By