Place recognition is formulated as a task of finding the location where the query image
was captured. This is an important task that has many practical applications in robotics,
autonomous driving, augmented reality, 3D reconstruction or systems that organize imagery
in geographically structured manner. Place recognition is typically done by finding
a reference image in a large structured geo-referenced database.
In this work, we first address the problem of building a geo-referenced dataset for
place recognition. We describe a framework for building the dataset from the street-side
imagery of the Google Street View that provides panoramic views from positions along
many streets, cities and rural areas worldwide. Besides of downloading the panoramic
views and ability to transform them into a set of perspective images, the framework is
capable of getting underlying scene depth information.
Second, we aim at localizing a query photograph by finding other images depicting
the same place in a large geotagged image database. This is a challenging task due
to changes in viewpoint, imaging conditions and the large size of the image database.
The contribution of this work is two-fold; (i) we cast the place recognition problem as a
classification task and use the available geotags to train a classifier for each location in the
database in a similar manner to per-exemplar SVMs in object recognition, and (ii) as only
a few positive training examples are available for each location, we propose two methods
to calibrate all the per-location SVM classifiers without the need for additional positive
training data. The first method relies on p-values from statistical hypothesis testing and
uses only the available negative training data. The second method performs an affine
calibration by appropriately normalizing the learned classifier hyperplane and does not
need any additional labeled training data. We test the proposed place recognition method
with the bag-of-visual-words and Fisher vector image representations suitable for large
scale indexing.
Experiments are performed on three datasets: 25,000 and 55,000 geotagged street
view images of Pittsburgh, and the 24/7 Tokyo benchmark containing 76,000 images with
varying illumination conditions. The results show improved place recognition accuracy of
the learned image representation over direct matching of raw image descriptors.
en
dc.language.iso
en
en
dc.title
Place Recognition by Per-Location Classifiers
en
dc.type
disertační práce
cze
dc.description.department
Katedra kybernetiky
theses.degree.discipline
Umělá inteligence a biokybernetika
theses.degree.grantor
České vysoké učení technické v Praze. Fakulta elektrotechnická. Katedra kybernetiky
theses.degree.programme
Elektrotechnika a informatika
dcterms.abstract
Pojem rozpoznávání místa je formulován jako úloha nalezení místa, kde byl porízen dotazovaný
obraz. Tato významná úloha má praktické aplikace v robotice, autonomním rízení, rozšírené
realite, 3D rekonstrukci ci systémech, které oraganizují obrazová data geograficky strukturovaným
zpusobem. Rozpoznávání místa se obvykle provádí nalezením referencního obrazu ve velké strukturované
georeferencní databázi.
Tato práce se nejprve zabývá tvorbou georeferencní databáze pro rozpoznávání místa. Popisuje
zpusob stavby databáze z Google Street View snímku, které poskytují panoramatické pohledy
zachycené v mnoha ulicích, mestech a venkovských oblastech po celém svete. Krome stahování
panoramat je popsán zpusob generovaní perspektivních snímku a získávání hloubkových map
zachycené scény.
Dále tato práce cílí na lokalizaci dotazovaného obrazu hledáním dalších obrázku v georeferencní
databázi zachycujících stejné místo. Jedná se o nelehkou úlohu, kde je treba se vyporádát se
zmenami polohy kamery, svetelnými podmínkami a velikostí databáze. Prínos této práce je dvojí.
(i) formulace problému rozpoznávání místa jako úlohy klasifikacní a za použití geotagu natrénování
klasifikátoru pro každou lokaci v databázi podobne jako per-exemplar SVM v rozpoznávání objektu.
(ii) protože pro každou lokaci je dustupných pouze nekolik pozitivních trénovacích príkladu, byly
navrhnuty dve kalibracní metody pro per-exemplar SVM, které nepotrebují pozitivní trénovací
data. První metoda je založená na p-values a používá pouze nagativní trénovací data. Druhá
metoda je založena na afinní kalibraci pomocí príslušné normalizace normálového vektoru naucené
nadroviny. Navrhovaná metoda rozpoznávání místa je testována na bag-of-words a Fisher vector
obrazových reprezentacích vhodných pro indexování velkých databází.
Experimenty jsou provedeny na trech datasetech: geotagované obrázky Google Street View z
mesta Pittsburgh o velikostech 25000 a 55000 snímku a datasetu 24/7 Tokyo, který obsahuje 76000
obrázku s výraznými rozdíly ve svetelných podmínkách. Výsledky vykazují výrazne lepší presnost
rozpoznání místa za použití reprezentací na základe naucených klasifikátoru.