Shlukování tváří ve videu

Rýdl Václav

Video Face Clustering

Typ dokumentu

diplomová práce
master thesis

Autor

Rýdl Václav

Vedoucí práce

Franc Vojtěch

Oponent práce

Urban Martin

Studijní obor

Datové vědy

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra počítačů

Obhájeno

2019-02-05

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

V této práci navrhujeme jednoduchou a přesto efektivní metodu pro shlukování tváří ve videu. Tato metoda se skládá ze tří hlavních bloků. Nejprve extrahujeme příznaky z obličejů detekovaných ve videu pomocí konvoluční neuronové sítě natrénované na statických obrázcích. Poté z těchto příznaků vytvoříme deskriptory pro jednotlivé tracky agregací deskriptorů extrahovaných pro jednotlivé obrázky. Na závěr tyto deskriptory spojíme do shluků dle identit. V této práci systematicky testujeme více různých implementací jednotlivých částí naší metody za účelem nalezení nejlepší kombinace extrakce příznaků, agregace deskriptorů a shlukovacího algoritmu. Experimenty ukazují, že námi navržená metoda je na testovaných datasetech lepší než většina současných prací na toto téma. Výstup této práce je open source implementace navržené metody, která je modulární a umožňuje jednoduché nahrazení jednotlivých komponent.

In this thesis we propose a simple but effective method for clustering faces in a video. The proposed method is composed of three main building blocks. Firstly, we extract feature descriptor for each face in the track by Convolutional Neural Network pre-trained on still images. Secondly, we describe each track by a single feature vector obtained by aggregating feature descriptors previously extracted from the faces of the track. Thirdly, we group the track descriptors by a clustering algorithm. We have systematically tested several different implementations of the three building blocks in order to find the best performing setup. Experiments on real-life data show that the resulting method outperforms most of the state-of-the-art approaches. The output of this thesis is an open source implementation of the proposed method which is modular to allow easy changes of the individual components.