Shlukování tváří ve videu
Video Face Clustering
Typ dokumentu
diplomová prácemaster thesis
Autor
Rýdl Václav
Vedoucí práce
Franc Vojtěch
Oponent práce
Urban Martin
Studijní obor
Datové vědyStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra počítačůObhájeno
2019-02-05Práva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
V této práci navrhujeme jednoduchou a přesto efektivní metodu pro shlukování tváří ve videu. Tato metoda se skládá ze tří hlavních bloků. Nejprve extrahujeme příznaky z obličejů detekovaných ve videu pomocí konvoluční neuronové sítě natrénované na statických obrázcích. Poté z těchto příznaků vytvoříme deskriptory pro jednotlivé tracky agregací deskriptorů extrahovaných pro jednotlivé obrázky. Na závěr tyto deskriptory spojíme do shluků dle identit. V této práci systematicky testujeme více různých implementací jednotlivých částí naší metody za účelem nalezení nejlepší kombinace extrakce příznaků, agregace deskriptorů a shlukovacího algoritmu. Experimenty ukazují, že námi navržená metoda je na testovaných datasetech lepší než většina současných prací na toto téma. Výstup této práce je open source implementace navržené metody, která je modulární a umožňuje jednoduché nahrazení jednotlivých komponent. In this thesis we propose a simple but effective method for clustering faces in a video. The proposed method is composed of three main building blocks. Firstly, we extract feature descriptor for each face in the track by Convolutional Neural Network pre-trained on still images. Secondly, we describe each track by a single feature vector obtained by aggregating feature descriptors previously extracted from the faces of the track. Thirdly, we group the track descriptors by a clustering algorithm. We have systematically tested several different implementations of the three building blocks in order to find the best performing setup. Experiments on real-life data show that the resulting method outperforms most of the state-of-the-art approaches. The output of this thesis is an open source implementation of the proposed method which is modular to allow easy changes of the individual components.
Kolekce
- Diplomové práce - 13136 [902]