Algoritmus label propagation pro one-shot segmentaci objektů ve videu
Label propagation for one-shot video object segmentation
Typ dokumentu
diplomová prácemaster thesis
Autor
Hynek Davídek
Vedoucí práce
Tolias Georgios
Oponent práce
Šegvić Siniša
Studijní obor
Umělá inteligenceStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra počítačůPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Tato práce si klade za cı́l vylepšenı́ přı́stupu učenı́ s omezenou supervizı́ k vyřešenı́ problému segmentace objektů ve videu vylepšenı́m přı́stupu navrženém ve článku Zhang a kol. – A Transductive Approach for Video Object Segmentation. Článek je shrnut a dalšı́ nezbytné informace týkajı́cı́ se algoritmu šı́řenı́ značek a učenı́ metrik, včetně hlubokého učenı́ metrik jsou nastı́něny. Uveden je i přehled současných metod řešenı́ problému segmentace objektů ve videu. Práce představuje dva nezávislé směry vylepšenı́. Prvnı́ směr se zaměřuje na vylepšenı́ inference za pomoci vylepšenı́ šiřenı́ značek šı́řenı́m pravděpodobnostı́ značek a použitı́m různých inferenčnı́ch strategiı́. Druhý směr vylepšenı́ se zaměřuje na zlepšenı́ tréninku modelu za použitı́ ztrátové funkce triplet loss a návrhem různých algoritmů pro zı́skávánı́ trénovacı́ch trojic. V poslednı́ části se práce zaměřuje na jak kvantitativnı́, tak i kvalitativnı́ analýzu navržených vylepšenı́. Původnı́ hodnoty metrik J a F byly zvýšeny o 12% a 13% za použitı́ vylepšenı́ upravujı́cı́ch inferenci a o 5% a 4% při použitı́ vylepšenı́ upravjı́cı́ch trénink původnı́ho modelu. This thesis focuses on improving the transductive learning approach to video object segmentation proposed by Zhang et al.’s paper A Transductive Approach for Video Object Segmentation. The paper is summarized, and necessary background knowledge of label propagation and metric learning, including deep metric learning, is introduced. An overview of current approaches to solving the video object segmentation was introduced as well. Two streams of improvements are proposed. The first one aims at improvements focusing on better inference by improving the label propagation by introducing probability propagation and by using various test-time augmentation strategies. The other improvements are focusing on better model training using triplet loss with different training triplet miners. In the last part, the thesis focuses on both quantitative and qualitative analysis of the proposed improvements. Suggested improvements increased the original paper’s J and F metrics were increased by 12% and 13% for the inference-based improvements and 5% and 4% respectively using the training-based improvements.
Kolekce
- Diplomové práce - 13136 [833]