Video Face Clustering
Shlukování tváří ve videu
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
2019-02-05
Abstract
V této práci navrhujeme jednoduchou a přesto efektivní metodu pro shlukování tváří ve videu. Tato metoda se skládá ze tří hlavních bloků. Nejprve extrahujeme příznaky z obličejů detekovaných ve videu pomocí konvoluční neuronové sítě natrénované na statických obrázcích. Poté z těchto příznaků vytvoříme deskriptory pro jednotlivé tracky agregací deskriptorů extrahovaných pro jednotlivé obrázky. Na závěr tyto deskriptory spojíme do shluků dle identit. V této práci systematicky testujeme více různých implementací jednotlivých částí naší metody za účelem nalezení nejlepší kombinace extrakce příznaků, agregace deskriptorů a shlukovacího algoritmu. Experimenty ukazují, že námi navržená metoda je na testovaných datasetech lepší než většina současných prací na toto téma. Výstup této práce je open source implementace navržené metody, která je modulární a umožňuje jednoduché nahrazení jednotlivých komponent.
In this thesis we propose a simple but effective method for clustering faces in a video. The proposed method is composed of three main building blocks. Firstly, we extract feature descriptor for each face in the track by Convolutional Neural Network pre-trained on still images. Secondly, we describe each track by a single feature vector obtained by aggregating feature descriptors previously extracted from the faces of the track. Thirdly, we group the track descriptors by a clustering algorithm. We have systematically tested several different implementations of the three building blocks in order to find the best performing setup. Experiments on real-life data show that the resulting method outperforms most of the state-of-the-art approaches. The output of this thesis is an open source implementation of the proposed method which is modular to allow easy changes of the individual components.
In this thesis we propose a simple but effective method for clustering faces in a video. The proposed method is composed of three main building blocks. Firstly, we extract feature descriptor for each face in the track by Convolutional Neural Network pre-trained on still images. Secondly, we describe each track by a single feature vector obtained by aggregating feature descriptors previously extracted from the faces of the track. Thirdly, we group the track descriptors by a clustering algorithm. We have systematically tested several different implementations of the three building blocks in order to find the best performing setup. Experiments on real-life data show that the resulting method outperforms most of the state-of-the-art approaches. The output of this thesis is an open source implementation of the proposed method which is modular to allow easy changes of the individual components.
Description
Citation
Underlying research data set URL
Permanent link
Rights/License
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.