Přenos pózy a výrazu mezi portréty

Petr Jahoda

Pose and Expression transfer between face images

Typ dokumentu

bakalářská práce
bachelor thesis

Autor

Petr Jahoda

Vedoucí práce

Čech Jan

Oponent práce

Friedjungová Magda

Studijní obor

Znalostní inženýrství

Studijní program

Informatika 2009

Instituce přidělující hodnost

katedra aplikované matematiky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Tato práce představuje metodu pro přenos pózy a výrazu mezi portréty. Po zadání dvou obrázků obličeje, zdrojového a cílového, navržená síť vygeneruje portrét, kde jsou póza a výraz z obrazu zdrojového obličeje přeneseny na cílovou identitu. Architektura se skládá ze dvou enkodérů a mapovací sítě, která mapuje oba vstupy do latentního prostoru sítě StyleGAN2. Ta následně vygeneruje výsledný obrázek ve vysoké kvalitě. Trénování je "self-supervised" bez potřeby označených dat. Naše metoda dokáže generovat obrázky téměř v reálném čase a umožňuje syntézu náhodných identit s nezávisle ovladatelnou pózou a výrazem.

This thesis proposes a method for pose and expression transfer between face images. Given a source and target face portrait, the designed network produces an output image where the pose and expression from the source face image are transferred onto the target identity. The architecture consists of two encoders and a mapping network that maps the two inputs into the latent space of StyleGAN2, which generates a high-quality image. The training is self-supervised without the need for labeled data. Our method achieves close to real-time image generation while also enabling the synthesis of random identities with independently controllable pose and expression.