Textem řízená stylizace videa v reálném čase s využitím difuzních modelů

This thesis presents a new approach to text-driven video stylization. The primary objective was to enable users to transform a live video stream using simple text prompts while ensuring real-time performance and maintaining high visual quality. Our approach combines the complementary capabilities of InstructPix2Pix and StyleVid to synthesize stylized keyframes and efficiently propagate them across video frames. This hybrid pipeline achieves over 30fps performance with minimal latency and style delay on typical video conferencing footage. The system not only showcases fast performance and interactive text prompt capabilities, but also excels at producing diverse and visually compelling stylizations in diverse video scenarios. Despite its strengths, the method also reveals limitations in keyframe consistency and coverage, especially for motions beyond standard video call scenarios. User feedback from public demonstrations confirms the system's intuitive use and expressive potential. Future work aims to enhance keyframe consistency and automate frame selection to further refine this novel avenue in text-guided real-time video stylization.

Tato práce zpracovává nový přístup k textově řízené stylizaci videa. Hlavním cílem je interaktivní transformace živého video streamu pomocí jednoduchých textových příkazů zadaných uživatelem při zachování vysoké vizuální kvality videa. Naše metoda kombinuje komplementární schopnost syntézy stylizovaných klíčových snímků a jejich efektivního šíření u modelů InstructPix2Pix a StyleVid. Toto hybridní řešení dosahuje výkonu přes 30 snímků za vteřinu s minimální latencí a prodlevou stylů na typických video konferenčních záběrech. Systém také vyniká v produkci rozmanitých a vizuálně přesvědčivých stylizací videí ve vnitřním i vnějším prostředí. Omezení spočívá v konzistenci a pokrytí klíčových snímků, zvláště při komplexních pohybech uživatele během videohovoru. Zpětná vazba uživatelů při veřejných prezentacích potvrzuje intuitivní použití systému a jeho expresivní potenciál. Možnosti dalšího vývoje metody pro textově řízenou stylizaci videa v reálném čase jsou především zlepšení konzistence klíčových snímků a v automatizaci výběru snímků.

Keywords

přenos stylu, stylizace videa, syntéza obrazu, latentní difuzní modely, zpracování v reálném čase, style transfer, video stylization, image synthesis, latent diffusion models, real-time processing

Permanent link

http://hdl.handle.net/10467/113318

Rights/License

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

Collections

Master Theses - 13136

Full item page

Text-driven Real-time Video Stylization using Diffusion Models