Algoritmus label propagation pro one-shot segmentaci objektů ve videu

Hynek Davídek

Label propagation for one-shot video object segmentation

Typ dokumentu

diplomová práce
master thesis

Autor

Hynek Davídek

Vedoucí práce

Tolias Georgios

Oponent práce

Šegvić Siniša

Studijní obor

Umělá inteligence

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra počítačů

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Tato práce si klade za cı́l vylepšenı́ přı́stupu učenı́ s omezenou supervizı́ k vyřešenı́ problému segmentace objektů ve videu vylepšenı́m přı́stupu navrženém ve článku Zhang a kol. – A Transductive Approach for Video Object Segmentation. Článek je shrnut a dalšı́ nezbytné informace týkajı́cı́ se algoritmu šı́řenı́ značek a učenı́ metrik, včetně hlubokého učenı́ metrik jsou nastı́něny. Uveden je i přehled současných metod řešenı́ problému segmentace objektů ve videu. Práce představuje dva nezávislé směry vylepšenı́. Prvnı́ směr se zaměřuje na vylepšenı́ inference za pomoci vylepšenı́ šiřenı́ značek šı́řenı́m pravděpodobnostı́ značek a použitı́m různých inferenčnı́ch strategiı́. Druhý směr vylepšenı́ se zaměřuje na zlepšenı́ tréninku modelu za použitı́ ztrátové funkce triplet loss a návrhem různých algoritmů pro zı́skávánı́ trénovacı́ch trojic. V poslednı́ části se práce zaměřuje na jak kvantitativnı́, tak i kvalitativnı́ analýzu navržených vylepšenı́. Původnı́ hodnoty metrik J a F byly zvýšeny o 12% a 13% za použitı́ vylepšenı́ upravujı́cı́ch inferenci a o 5% a 4% při použitı́ vylepšenı́ upravjı́cı́ch trénink původnı́ho modelu.

This thesis focuses on improving the transductive learning approach to video object segmentation proposed by Zhang et al.’s paper A Transductive Approach for Video Object Segmentation. The paper is summarized, and necessary background knowledge of label propagation and metric learning, including deep metric learning, is introduced. An overview of current approaches to solving the video object segmentation was introduced as well. Two streams of improvements are proposed. The first one aims at improvements focusing on better inference by improving the label propagation by introducing probability propagation and by using various test-time augmentation strategies. The other improvements are focusing on better model training using triplet loss with different training triplet miners. In the last part, the thesis focuses on both quantitative and qualitative analysis of the proposed improvements. Suggested improvements increased the original paper’s J and F metrics were increased by 12% and 13% for the inference-based improvements and 5% and 4% respectively using the training-based improvements.