Časosběrné video obličeje
Facial Time Lapse Video
Type of document
bakalářská prácebachelor thesis
Author
Ondřej Vereš
Supervisor
Čech Jan
Opponent
Franc Vojtěch
Field of study
Základy umělé inteligence a počítačových vědStudy program
Otevřená informatikaInstitutions assigning rank
katedra kybernetikyRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Tato práce popisuje generativní metodu pro tvorbu časosběrných videí obličeje a webovou aplikaci dostupnou na adrese http://cmp.felk.cvut.cz/facialtimelapse, do které uživatel může nahrát sbírku klíčových snímku dané osoby nebo zadat jméno známe osobnosti a sbírka se na základě internetového vyhledávání vytvoří automaticky. Aplikace na základě této sbírky vygeneruje plynulé časosběrné video obličeje dané osoby. Použití této metody je umožněno díky významnému pokroku v oblasti generování foto-realistický obrázků obličeje pomocí generativní adversialní sítě StyleGAN. Naše metoda funguje v následujících krocích: (0) Pokud je vstup jméno známe osobnosti, najde pomocí internetového vyhledávače fotky dané osoby. (1) Seřadí fotky podle automaticky odhadnutého věku. (2) Doporučí odstranění fotek, na kterých se pravděpodobně daná osoba nenachází. (3) Invertuje vstupní obrázky do latentního prostoru StyleGANu. (4) Vygeneruje plynulou sekvenci obrázků dané osoby použitím interpolace v latentním prostoru StyleGANu. (5) Prolne klíčové snímky s vygenerovanou sekvencí pro lepší zachování identity. (6) Spojí výslednou sekvencí obrázků do videa. Ve srovnání s naivní metodou spočívající v interpolaci intenzit pixelů klíčových snímků, naše metoda produkuje videa, která působí přirozeněji a více realisticky. Pokud ovšem naši metodu porovnáme s naivní metodou v zachování identity, naivní metoda si vede lépe, protože neuronová síť, která ji vyhodnocuje, není citlivá na artefakty „duchů“ z předochozího či následujícího klíčového snímku. This thesis describes a generative method for creating facial time lapse videos and a web application available at http://cmp.felk.cvut.cz/facialtimelapse where a user can upload his/her image collection of sparse key-frames or enter a well-known person's name, and the application will crawl the collection from the Internet automatically. Afterward, the application will generate a smooth facial time lapse based on the collection. The proposed method is enabled by the significant progress in the generation of photo-realistic facial images based on an improved generative adversarial network, the StyleGAN. The proposed algorithm works in the following steps: (0) If the input is a well-known person's name, crawl images of the person from the Internet. (1) Order input images according to an automatically estimated age. (2) Recommend removing images without the target person. (3) Invert the input images into the StyleGAN latent space. (4) Generate a smooth sequence of images of the target person using linear interpolation in StyleGAN latent space. (5) Partially blend the key-frames into the generated sequence to increase identity fidelity. (6) Combine the resulting sequence of images into a video. Compared to the naive method, which produces a video by interpolating the pixel intensities of the key-frames, our method produces more natural and realistic facial time lapse videos. However, the naive method performed better in identity loss because the neural network computing the identity loss has minimal sensitivity to “ghosts” artifacts from the previous or next key-frame in the time lapse.
Collections
- Bakalářské práce - 13133 [639]