Place Recognition by Per-Location Classifiers

Gronát, Petr

dc.contributor.advisor	Pajdla, Tomáš
dc.contributor.advisor	Šivic, Josef
dc.contributor.author	Gronát, Petr
dc.date.accessioned	2017-04-27T07:23:02Z
dc.date.available	2017-04-27T07:23:02Z
dc.date.issued	2017
dc.identifier.uri	http://hdl.handle.net/10467/68322
dc.description.abstract	Place recognition is formulated as a task of finding the location where the query image was captured. This is an important task that has many practical applications in robotics, autonomous driving, augmented reality, 3D reconstruction or systems that organize imagery in geographically structured manner. Place recognition is typically done by finding a reference image in a large structured geo-referenced database. In this work, we first address the problem of building a geo-referenced dataset for place recognition. We describe a framework for building the dataset from the street-side imagery of the Google Street View that provides panoramic views from positions along many streets, cities and rural areas worldwide. Besides of downloading the panoramic views and ability to transform them into a set of perspective images, the framework is capable of getting underlying scene depth information. Second, we aim at localizing a query photograph by finding other images depicting the same place in a large geotagged image database. This is a challenging task due to changes in viewpoint, imaging conditions and the large size of the image database. The contribution of this work is two-fold; (i) we cast the place recognition problem as a classification task and use the available geotags to train a classifier for each location in the database in a similar manner to per-exemplar SVMs in object recognition, and (ii) as only a few positive training examples are available for each location, we propose two methods to calibrate all the per-location SVM classifiers without the need for additional positive training data. The first method relies on p-values from statistical hypothesis testing and uses only the available negative training data. The second method performs an affine calibration by appropriately normalizing the learned classifier hyperplane and does not need any additional labeled training data. We test the proposed place recognition method with the bag-of-visual-words and Fisher vector image representations suitable for large scale indexing. Experiments are performed on three datasets: 25,000 and 55,000 geotagged street view images of Pittsburgh, and the 24/7 Tokyo benchmark containing 76,000 images with varying illumination conditions. The results show improved place recognition accuracy of the learned image representation over direct matching of raw image descriptors.	en
dc.language.iso	en	en
dc.title	Place Recognition by Per-Location Classifiers	en
dc.type	disertační práce	cze
dc.description.department	Katedra kybernetiky
theses.degree.discipline	Umělá inteligence a biokybernetika
theses.degree.grantor	České vysoké učení technické v Praze. Fakulta elektrotechnická. Katedra kybernetiky
theses.degree.programme	Elektrotechnika a informatika
dcterms.abstract	Pojem rozpoznávání místa je formulován jako úloha nalezení místa, kde byl porízen dotazovaný obraz. Tato významná úloha má praktické aplikace v robotice, autonomním rízení, rozšírené realite, 3D rekonstrukci ci systémech, které oraganizují obrazová data geograficky strukturovaným zpusobem. Rozpoznávání místa se obvykle provádí nalezením referencního obrazu ve velké strukturované georeferencní databázi. Tato práce se nejprve zabývá tvorbou georeferencní databáze pro rozpoznávání místa. Popisuje zpusob stavby databáze z Google Street View snímku, které poskytují panoramatické pohledy zachycené v mnoha ulicích, mestech a venkovských oblastech po celém svete. Krome stahování panoramat je popsán zpusob generovaní perspektivních snímku a získávání hloubkových map zachycené scény. Dále tato práce cílí na lokalizaci dotazovaného obrazu hledáním dalších obrázku v georeferencní databázi zachycujících stejné místo. Jedná se o nelehkou úlohu, kde je treba se vyporádát se zmenami polohy kamery, svetelnými podmínkami a velikostí databáze. Prínos této práce je dvojí. (i) formulace problému rozpoznávání místa jako úlohy klasifikacní a za použití geotagu natrénování klasifikátoru pro každou lokaci v databázi podobne jako per-exemplar SVM v rozpoznávání objektu. (ii) protože pro každou lokaci je dustupných pouze nekolik pozitivních trénovacích príkladu, byly navrhnuty dve kalibracní metody pro per-exemplar SVM, které nepotrebují pozitivní trénovací data. První metoda je založená na p-values a používá pouze nagativní trénovací data. Druhá metoda je založena na afinní kalibraci pomocí príslušné normalizace normálového vektoru naucené nadroviny. Navrhovaná metoda rozpoznávání místa je testována na bag-of-words a Fisher vector obrazových reprezentacích vhodných pro indexování velkých databází. Experimenty jsou provedeny na trech datasetech: geotagované obrázky Google Street View z mesta Pittsburgh o velikostech 25000 a 55000 snímku a datasetu 24/7 Tokyo, který obsahuje 76000 obrázku s výraznými rozdíly ve svetelných podmínkách. Výsledky vykazují výrazne lepší presnost rozpoznání místa za použití reprezentací na základe naucených klasifikátoru.	cze

Soubory tohoto záznamu

Název:: Disertace_Gronat_2017.pdf
Velikost:: 48.94Mb
Formát:: PDF
: Zobrazit/otevřít

Název:: license.txt
Velikost:: 1.707Kb
Formát:: Textový soubor
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Disertační práce - 13000 [706]

Zobrazit minimální záznam