Vehicle Detection and Pose Estimation for Autonomous Driving
Detekce 3D objektů pro systémy řízení autonomního vozidla
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date
Files
Abstract
Tato diplomová práce představuje plně konvoluční síť pro detekci 2D a 3D bounding boxů aut z obrázků, se speciálním zaměřením na využití v autonomním řízení vozidel. Oproti předcházejícím metodám, které používají neuronové sítě pro detekci 3D bouniding boxů, síť představená v této práci je trénovatelná tzv. end-to-end a umí detekovat objekty v různých velikostech během jediného zpracování. Je uvedena nová reprezentace 3D bounding boxů, která je nezávislá na matici kamery (kameře použité pro snímání obrázků). Tato vlastnost umožňuje, aby byl detektor trénován na několika různých datasetech najednou a zároveň mohl detekovat 3D bounding boxy na úplně jiných datasetech, než byl trénován. Prezentovaná síť dokáže zpracovávat 0.5 MPx obrázky z KITTI datasetu v rychlosti 10 snímků za sekundu, což je přibližně o řád rychleji, než nejrychlejší síť, která má lepší výsledky detekce. Z tohoto důvodu může být aplikovaná v autonomním řízení.
The thesis presents a fully convolutional neural network for 2D and 3D bounding box detection of cars from monocular images intended for autonomous driving applications. In contrast with previous deep neural network methods applied to 3D bounding box detection, the introduced network is end-to-end trainable and detects objects at multiple scales in a single pass. We introduce a novel 3D bounding box representation, which is independent of the image projection matrix (camera used to take the images). Therefore, the detector may be trained on several different datasets at a time and also detect 3D bounding boxes on completely different datasets than it was trained on. The presented multi-scale end-to-end network is capable of processing 0.5MPx KITTI images in 10fps, which makes it about an order of magnitude faster than the closest competitor that has superior detection results. Therefore, it is possible to be used in autonomous driving scenarios.
The thesis presents a fully convolutional neural network for 2D and 3D bounding box detection of cars from monocular images intended for autonomous driving applications. In contrast with previous deep neural network methods applied to 3D bounding box detection, the introduced network is end-to-end trainable and detects objects at multiple scales in a single pass. We introduce a novel 3D bounding box representation, which is independent of the image projection matrix (camera used to take the images). Therefore, the detector may be trained on several different datasets at a time and also detect 3D bounding boxes on completely different datasets than it was trained on. The presented multi-scale end-to-end network is capable of processing 0.5MPx KITTI images in 10fps, which makes it about an order of magnitude faster than the closest competitor that has superior detection results. Therefore, it is possible to be used in autonomous driving scenarios.