Improving the HardNet Descriptor
Vylepšení HardNet deskriptoru
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date
Abstract
Uvažujeme problém učení lokálního deskriptoru pro wide baseline stereo, zaměřeujeme se na deskriptor HardNet, který je blízko state-of-the-art. Představujeme datový soubor AMOS Patches, který zlepšuje odolnost vůči změnám osvětlení a vzhledu. Je založen na registrovaných obrázcích z vybraných kamer z datového souboru AMOS. Dáváme doporučení k procesu vytváření datových sad obrázkových výřezů a testujeme HardNet naučený na datech různého charakteru. Představujeme také metody pro kombinaci datových sad a jejich redukci, díky kterým dává učení na výrazně méně datech srovnatelné výsledky. HardNet8, který překonává původní HardNet, těží z provedených rozhodnutí o architektuře: schéma propojení, final polling, receptivní pole, stavební bloky CNN nalezené pomocí manuálních nebo automatických vyhledávacích algoritmů - DARTS. Ukazujeme vliv často přehlížených hyperparametrů, jako je velikost batche a délka tréninku, na kvalitu deskriptoru. Komprese výstupů sítě pomocí PCA dále zlepšuje výsledky a také snižuje paměťovou náročnost. Na základě získaných poznatků představujeme dvě varianty HardNet8 deskriptoru: jeden má dobré výsledky na HPatches, AMOS Patches a IMW Phototourism, druhý je optimalizován pro IMW Phototourism.
We consider the problem of local feature descriptor learning for wide baseline stereo focusing on the HardNet descriptor, which is close to state-of-the-art. AMOS Patches dataset is introduced, which improves robustness to illumination and appearance changes. It is based on registered images from selected cameras from the AMOS dataset. We provide recommendations on the patch dataset creation process and evaluate HardNet trained on data of different modalities. We also introduce a dataset combination and reduction methods, that allow comparable performance on a significantly smaller dataset. HardNet8, consistently outperforming the original HardNet, benefits from the architectural choices made: connectivity pattern, final pooling, receptive field, CNN building blocks found by manual or automatic search algorithms -- DARTS. We show impact of overlooked hyperparameters such as batch size and length of training on the descriptor quality. PCA dimensionality reduction further boosts performance and also reduces memory footprint. Finally, the insights gained lead to two HardNet8 descriptors: one performing well on a variety of benchmarks -- HPatches, AMOS Patches and IMW Phototourism, the other is optimized for IMW Phototourism.
We consider the problem of local feature descriptor learning for wide baseline stereo focusing on the HardNet descriptor, which is close to state-of-the-art. AMOS Patches dataset is introduced, which improves robustness to illumination and appearance changes. It is based on registered images from selected cameras from the AMOS dataset. We provide recommendations on the patch dataset creation process and evaluate HardNet trained on data of different modalities. We also introduce a dataset combination and reduction methods, that allow comparable performance on a significantly smaller dataset. HardNet8, consistently outperforming the original HardNet, benefits from the architectural choices made: connectivity pattern, final pooling, receptive field, CNN building blocks found by manual or automatic search algorithms -- DARTS. We show impact of overlooked hyperparameters such as batch size and length of training on the descriptor quality. PCA dimensionality reduction further boosts performance and also reduces memory footprint. Finally, the insights gained lead to two HardNet8 descriptors: one performing well on a variety of benchmarks -- HPatches, AMOS Patches and IMW Phototourism, the other is optimized for IMW Phototourism.
Description
Keywords
deskriptor bodu zájmu, HardNet, registrace obrázků, konvoluční neuronová síť, robustnost ke změně osvětlení, tvorba datasetu, redukce datasetu, kombinování datasetů, hledání architektury, ztrátová funkce, komprese vektorové reprezentace, local feature descriptor, HardNet, image matching, convolutional neural network, illumination robust, dataset creation, dataset reduction, combining datasets, architecture search, loss function, compression of embeddings