Pokročilá editace obrazu pomocí generativních modelů

Adéla Šubrtová

Advanced Image Editing using Generative Models

Typ dokumentu

disertační práce
doctoral thesis

Autor

Adéla Šubrtová

Vedoucí práce

Sýkora Daniel

Oponent práce

Cohen-Or Daniel

Studijní obor

Informatika - Katedra počítačové grafiky a interakce

Studijní program

Informatika

Instituce přidělující hodnost

katedra počítačové grafiky a interakce

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Techniky editace obrazu se vyvíjí déle než sto let---od manuálních úprav v temné komoře až po dnešní automatizované postupy založené na generativních modelech. S příchodem generativních adversariálních sítí a difuzních modelů se syntéza a editace obrazu staly mnohem dostupnější a přispěly ke vzniku nových kreativních odvětví i interaktivních aplikací. Navzdory svému úspěchu však tyto modely čelí problémům zejména v případech, kdy je vyžadována editace při současném zachování věrnosti původního obrazu a v poskytování intuitivního prostředí pro složitější úpravy.Tato práce přináší čtyři příspěvky, které zlepšují metody pro sémanticky smysluplnou editaci obrazu s využitím moderních generativních modelů. Předně představujeme metodu pro přenos účesu mezi portréty, která odděluje reprezentaci identity člověka od účesu a pozadí a umožňuje tak spolehlivě měnit účesy i u nekonzistentních záběrů. Dále navrhujeme postup pro inverzi obrazu po částech, který přesně rekonstruuje reálné snímky a zároveň dovoluje provádět detailní lokální úpravy. Třetím příspěvkem je rozšíření klasické metody obrazových analogií do kontextu difuzních modelů. Ten umožní přenášet komplexní, sémanticky smysluplné transformace na základě dvojic obrázků. V závěru se věnujeme defektům v oblasti obličejů, které se často objevují v generovaných snímcích. Naše metoda nejprve defekty detekuje a následně opravuje, čímž zvyšuje realističnost generovaného obsahu. Všechny uvedené příspěvky přináší praktické metody, jež zlepšují kontrolu, realismus a použitelnost sémanticky smysluplné editace obrazu pomocí generativních modelů.

Image editing has been evolving for more than a century, from manual darkroom editing techniques to today's automated workflows powered by generative models. The advent of Generative Adversarial Networks (GANs) and diffusion models has transformed image synthesis and manipulation into accessible, fast processes, opening applications across creative industries, prototyping, and interactive tools. Despite their success, generative models still face challenges in balancing reconstruction fidelity with editability, ensuring perceptual quality, and enabling intuitive high-level alterations. This thesis presents four contributions toward advancing semantic image editing with state-of-the-art generative models. First, we introduce a method for hairstyle transfer that disentangles identity from hairstyle and background, achieving robust, photorealistic results across unaligned facial images. Second, we propose a segmentation-based GAN inversion framework that faithfully reconstructs real images while preserving flexibility for local semantic manipulations. Third, we extend the classical Image Analogies framework into diffusion models, enabling high-level semantic transformations in an example-based editing setting. Fourth, we address perceptual artifacts in synthetic images through a detection-inpainting pipeline, enhancing visual realism in diffusion-generated content. Together, these contributions introduce practical methods that improve the controllability, realism, and usability of semantic image editing with generative models.