Zobrazit minimální záznam



dc.contributor.advisorPajdla, Tomáš
dc.contributor.advisorŠivic, Josef
dc.contributor.authorGronát, Petr
dc.date.accessioned2017-04-27T07:23:02Z
dc.date.available2017-04-27T07:23:02Z
dc.date.issued2017
dc.identifier.urihttp://hdl.handle.net/10467/68322
dc.description.abstractPlace recognition is formulated as a task of finding the location where the query image was captured. This is an important task that has many practical applications in robotics, autonomous driving, augmented reality, 3D reconstruction or systems that organize imagery in geographically structured manner. Place recognition is typically done by finding a reference image in a large structured geo-referenced database. In this work, we first address the problem of building a geo-referenced dataset for place recognition. We describe a framework for building the dataset from the street-side imagery of the Google Street View that provides panoramic views from positions along many streets, cities and rural areas worldwide. Besides of downloading the panoramic views and ability to transform them into a set of perspective images, the framework is capable of getting underlying scene depth information. Second, we aim at localizing a query photograph by finding other images depicting the same place in a large geotagged image database. This is a challenging task due to changes in viewpoint, imaging conditions and the large size of the image database. The contribution of this work is two-fold; (i) we cast the place recognition problem as a classification task and use the available geotags to train a classifier for each location in the database in a similar manner to per-exemplar SVMs in object recognition, and (ii) as only a few positive training examples are available for each location, we propose two methods to calibrate all the per-location SVM classifiers without the need for additional positive training data. The first method relies on p-values from statistical hypothesis testing and uses only the available negative training data. The second method performs an affine calibration by appropriately normalizing the learned classifier hyperplane and does not need any additional labeled training data. We test the proposed place recognition method with the bag-of-visual-words and Fisher vector image representations suitable for large scale indexing. Experiments are performed on three datasets: 25,000 and 55,000 geotagged street view images of Pittsburgh, and the 24/7 Tokyo benchmark containing 76,000 images with varying illumination conditions. The results show improved place recognition accuracy of the learned image representation over direct matching of raw image descriptors.en
dc.language.isoenen
dc.titlePlace Recognition by Per-Location Classifiersen
dc.typedisertační prácecze
dc.description.departmentKatedra kybernetiky
theses.degree.disciplineUmělá inteligence a biokybernetika
theses.degree.grantorČeské vysoké učení technické v Praze. Fakulta elektrotechnická. Katedra kybernetiky
theses.degree.programmeElektrotechnika a informatika
dcterms.abstractPojem rozpoznávání místa je formulován jako úloha nalezení místa, kde byl porízen dotazovaný obraz. Tato významná úloha má praktické aplikace v robotice, autonomním rízení, rozšírené realite, 3D rekonstrukci ci systémech, které oraganizují obrazová data geograficky strukturovaným zpusobem. Rozpoznávání místa se obvykle provádí nalezením referencního obrazu ve velké strukturované georeferencní databázi. Tato práce se nejprve zabývá tvorbou georeferencní databáze pro rozpoznávání místa. Popisuje zpusob stavby databáze z Google Street View snímku, které poskytují panoramatické pohledy zachycené v mnoha ulicích, mestech a venkovských oblastech po celém svete. Krome stahování panoramat je popsán zpusob generovaní perspektivních snímku a získávání hloubkových map zachycené scény. Dále tato práce cílí na lokalizaci dotazovaného obrazu hledáním dalších obrázku v georeferencní databázi zachycujících stejné místo. Jedná se o nelehkou úlohu, kde je treba se vyporádát se zmenami polohy kamery, svetelnými podmínkami a velikostí databáze. Prínos této práce je dvojí. (i) formulace problému rozpoznávání místa jako úlohy klasifikacní a za použití geotagu natrénování klasifikátoru pro každou lokaci v databázi podobne jako per-exemplar SVM v rozpoznávání objektu. (ii) protože pro každou lokaci je dustupných pouze nekolik pozitivních trénovacích príkladu, byly navrhnuty dve kalibracní metody pro per-exemplar SVM, které nepotrebují pozitivní trénovací data. První metoda je založená na p-values a používá pouze nagativní trénovací data. Druhá metoda je založena na afinní kalibraci pomocí príslušné normalizace normálového vektoru naucené nadroviny. Navrhovaná metoda rozpoznávání místa je testována na bag-of-words a Fisher vector obrazových reprezentacích vhodných pro indexování velkých databází. Experimenty jsou provedeny na trech datasetech: geotagované obrázky Google Street View z mesta Pittsburgh o velikostech 25000 a 55000 snímku a datasetu 24/7 Tokyo, který obsahuje 76000 obrázku s výraznými rozdíly ve svetelných podmínkách. Výsledky vykazují výrazne lepší presnost rozpoznání místa za použití reprezentací na základe naucených klasifikátoru.cze


Soubory tohoto záznamu



Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam