Vizuální rozpoznávání do mnoha tříd s vedlejší informací
Fine-grained Visual Recognition with Side Information
Type of document
diplomová prácemaster thesis
Author
Rail Chamidullin
Supervisor
Matas Jiří
Opponent
Franc Vojtěch
Field of study
Počítačové vidění a digitální obrazStudy program
Otevřená informatikaInstitutions assigning rank
katedra kybernetikyRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Práce se zabývá vizuálním rozpoznávání druhů hadů a hub s vedlejší informací do mnoha tříd. V práci je navržena metoda založená na state-of-the-art hlubokých neuronových sítích pro klasifikaci, tj. konvolučních neuronových sítí a tzv. Vision Transformers. Zlepšení výsledku dosahujeme: (1) zavedením ztrátových funkcí navržených pro situace s nevyváženými třídami; (2) úpravou predikcí podle apriorní pravděpodobnosti vedlejší informace, jako je místo a čas pozorování; (3) použitím metody učení se slabým učitelem k lokalizaci hadů a hub na snímcích a oříznutí snímků na základě detekovaných oblastí pro obohacení trénovacích dat. V závěru demonstrujeme použití navržené metody pro rozhodnutí o postupu lečby hadího uštknutí. The thesis presents a method for fine-grained visual snake and fungi species recognition with side information. The proposed method is based on state-of-the-art deep neural networks for classification: Convolutional Neural Networks and Vision Transformers. We achieve performance improvements by: (1) adopting loss functions proposed to address the class imbalance; (2) adjusting predictions by prior probabilities of side information like location and time of observation; (3) applying a weakly supervised method to localize snakes and fungi in images and crop the images based on the detected regions to enrich the training data. Finally, we demonstrate the use of the proposed method to decide on medical response to snakebites.
Collections
- Diplomové práce - 13133 [462]