Překonání problému různých vizuálních domén ve vizuálním vyhledávání pomocí generování trénovacích dat
Domain generalization in image retrieval through training data synthesis
Typ dokumentu
diplomová prácemaster thesis
Autor
Albert Möhwald
Vedoucí práce
Jeníček Tomáš
Oponent práce
Čech Josef
Studijní obor
Kybernetická bezpečnostStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra počítačůObhájeno
2023-02-08Práva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Vizuální vyhledávání obrázků založené na hlubokých neuronových sítích se opírá o velké množství různorodých trénovacích obrázků. Problém značných vizuálních změn, konkrétně den–noc a fotografie–skica, je řešen pomocí syntetizovaných trénovacích obrázků formou rozšíření datové sady. GANy jsou studovány za účelem naučení překladu obrazů, aby bylo možné generovat více trénovacích dat z nedostatkové domény. Pro úlohu den–noc je reprezentace obrazu naučena přes učení metriky, kde je GAN generátor použit pro generování různorodých denních–nočních párů. Vyhodnoceny jsou různé architektury generátorů, včetně nové GAN architektury, jež zachovává obsah mezi vzorovým a syntetizovaným obrázkem pomocí konzistence hran a současně trénuje detektor hran pro operování na denních i nočních obrázcích. V úloze fotografie–skica nejsou k dispozici žádné trénovací skicy, což je řešeno pomocí detektoru hran, který transformuje fotografii do hranového obrázku a následně je použit GAN generátor k ztenčení hran, čímž přiblíží takto vzniklý obrázek skicám. Navržený přístup rozšiřování datové sady překonává předchozí práce a současný state–of–the–art na benchmarku Tokio 24/7 pro vizuální vyhledávání ve dne i v noci, přičemž zachovává výkonnost benchmarků Oxford a Paris. Rozšíření datové sady založené na GAN však nepřekonává ruční rozšíření používané pro rozpoznávání skic. Image retrieval based on deep neural networks relies on a large number of diverse training images. The challenge of severe visual appearance changes, specifically day–night and photo–sketch, is addressed using synthesized training images as a form of data augmentation. GANs are studied to learn image–to–image translation allowing to generate more training data of the scarce domain. For the day–night task, image representation is cast as metric learning and the GAN generator is used to generate diverse day–night pairs for the training. Various generator architectures are evaluated, including a novel lightweight GAN architecture that preserves the content between the original and synthesized images with edge consistency and simultaneously trains an edge detector to operate on both day and night images. For the photo–sketch task, no training sketches are available, which is tackled with an edge detector, that transforms photos into edge images, and then, the GAN generator is used to thin the edges that approximate sketch images. The proposed data augmentation approach outperforms prior work and improves over the current state–of–the–art Tokyo 24/7 day-night image retrieval benchmark while maintaining performance on the Oxford and Paris benchmarks. However, similar GAN–based augmentation does not surpass handcrafted augmentation used for sketch recognition.
Kolekce
- Diplomové práce - 13136 [833]