Extrakce kanonických pohledů z multimediálních databází pomocí neobrazové informace

Ucelená kolekce komplexních dat je užitečná a Wikipedie takovou kolekci poskytuje. Schopnost rozpoznat jakýkoliv významný objekt na Wikipedii podle obrázku a prezentovat jeho kanonické pohledy je samo o sobě působivé. Ucelená kolekce může sloužit k měření chyby typu II u systémů pro vyhledávání pomocí obrazové informace. Byla získána množina 357 tisíc významných objektů ze všech stránek Wikipedie a Wikidat za využití 390 jazyků. Propojením nezávislých zdrojů otevřených dat byla vytvořena ontologie představující sémantický popis významných objektů z Wiki. Dále byla sestavena množina 1.1 miliónu ručně anotovaných Wiki obrázků a soubor 131 miliónů externích obrázků z pěti různých internetových databází - Google Images, Flickr, Yahoo Image Search, Bing Images a Yandex Image Search. Všechna zpracovaná data jsou z roku 2016. Obrázky každého významného objektu se sestávají z množiny odlišných pohledů společně s metadaty vztahující se ke scéně. Shlukováním Wiki obrázků obsahující odlišné pohledy byly identifikovány kanonické pohledy. Výsledkem je databáze s komplexním popisem každého významného objektu jak z pohledu sémantiky, tak z pohledu vizuální informace. S využitím těchto dat byl vytvořen systém vyhledávání pomocí obrazové informace, který je schopen vyhledat jakýkoliv významný objekt z Wiki, a pro který byl definovaný evaluační protokol. Při uvažování pouze prvního výsledku měl systém průměrnou přesnost 48%.

A comprehensive collection of complex data is beneficial and Wikipedia provides such collection. The ability to recognize any landmark on Wikipedia from an image and present its canonical views is impressive by itself. A comprehensive collection can provide a mean of measuring the false negative rate of image-based retrieval systems. A set of 357 thousand Wiki Landmarks has been identified among all Wikipedia and Wikidata pages while utilizing 390 languages. An ontology representing a semantic description of Wiki Landmarks was formed by interlinking independent Open Data sources. A dataset of 1.1 million manually annotated Wiki images was retrieved and the main corpus of 131 million external images was obtained from five distinct online image databases - Google Images, Flickr, Yahoo Image Search, Bing Images and Yandex Image Search. All processed data are from 2016. Images of each landmark consist of a set of diverse views together with metadata related to the scene. For each set of diverse views, canonical views were identified by clustering Wiki images. The result is a database with a complex description of each Wiki Landmark from both semantic and visual point of view. Based on this dataset, an image-based retrieval system able to retrieve any Wiki landmark was built and its evaluation protocol was defined. Taking the first result only, the average accuracy of the system was 48%.

Keywords

definice landmark,mnozina obrazku,kanonicke pohledy,vyhledavani pomoci obrazove informace,ontologie,hluboke site, landmark definition,imageset,canonical views,image retrieval,ontology,deep networks

Permanent link

http://hdl.handle.net/10467/67313

Rights/License

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

Collections

Master Theses - 13136

Full item page

Canonical Views Extraction from Multimedia Databases Using Non-image Information