Pohybová signatura jednotlivců při mluvení
Talking motion signature of individuals
Type of document
bakalářská prácebachelor thesis
Author
Ivan Samarskyi
Supervisor
Čech Jan
Opponent
Kordík Pavel
Field of study
Umělá inteligence 2021Study program
InformatikaInstitutions assigning rank
katedra aplikované matematikyRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Tato bakalářská práce představuje metodu identifikace jednotlivců výhradně na základě jejich pohybových vzorců obličeje při mluvení, nezávisle na jejich vizuálním vzhledu. Navržený přístup extrahuje aktivace obličejových svalů a rotace hlavy ze snímků videa osoby při řeči a využívá je k sestavení charakteristických Pohybových Signatur Mluvení. Práce poskytuje přehled souvisejícího výzkumu, stávajících ručně navrhovaných metod pro tvorbu těchto signatur a navrhuje nový přístup založený na učení. Pro účely trénování a vyhodnocení metod je představen vlastní dataset. Odolnost signatur je testována vůči změnám délky videa, komprese a rozlišení. Navržený model založený na ResNet a ArcFace dosahuje 95% Top-1 klasifikační přesnosti na datasetu s 5 identitami a 25% Top-1 přesnosti na větším datasetu se 636 identitami. Dodatečné experimenty demonstrují využití metody v detekci deepfake videí, otevřeném rozpoznávání identit a hodnocení kvality imitací herců. This thesis introduces a method for identifying individuals based solely on their facial motion patterns while speaking, independent of their visual appearance. The approach extracts facial muscle activations and head rotations from video frames of a person speaking, and uses them to compose distinctive Talking Motion Signatures. The work provides a comprehensive overview of related research, existing methods for hand-crafting motion signatures, and proposes a learning-based approach. A custom dataset is presented to train and evaluate methods. The signatures' robustness is tested against changes in video length, compression, and resolution. The proposed ResNet and ArcFace-based model achieves 95% Top-1 classification accuracy on a dataset of 5 individuals and 25% Top-1 accuracy on a larger dataset of 636 individuals. Additional experiments demonstrate the method's applications in deepfake detection and open-set identification, as well as evaluating the quality of actors' impersonations.
Collections
- Bakalářské práce - 18105 [369]