Textem řízená stylizace videa v reálném čase s využitím difuzních modelů
Text-driven Real-time Video Stylization using Diffusion Models
Typ dokumentu
diplomová prácemaster thesis
Autor
David Kunz
Vedoucí práce
Sýkora Daniel
Oponent práce
Texler Ondřej
Studijní obor
Umělá inteligenceStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra počítačůPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
This thesis presents a new approach to text-driven video stylization. The primary objective was to enable users to transform a live video stream using simple text prompts while ensuring real-time performance and maintaining high visual quality. Our approach combines the complementary capabilities of InstructPix2Pix and StyleVid to synthesize stylized keyframes and efficiently propagate them across video frames. This hybrid pipeline achieves over 30fps performance with minimal latency and style delay on typical video conferencing footage. The system not only showcases fast performance and interactive text prompt capabilities, but also excels at producing diverse and visually compelling stylizations in diverse video scenarios. Despite its strengths, the method also reveals limitations in keyframe consistency and coverage, especially for motions beyond standard video call scenarios. User feedback from public demonstrations confirms the system's intuitive use and expressive potential. Future work aims to enhance keyframe consistency and automate frame selection to further refine this novel avenue in text-guided real-time video stylization. Tato práce zpracovává nový přístup k textově řízené stylizaci videa. Hlavním cílem je interaktivní transformace živého video streamu pomocí jednoduchých textových příkazů zadaných uživatelem při zachování vysoké vizuální kvality videa. Naše metoda kombinuje komplementární schopnost syntézy stylizovaných klíčových snímků a jejich efektivního šíření u modelů InstructPix2Pix a StyleVid. Toto hybridní řešení dosahuje výkonu přes 30 snímků za vteřinu s minimální latencí a prodlevou stylů na typických video konferenčních záběrech. Systém také vyniká v produkci rozmanitých a vizuálně přesvědčivých stylizací videí ve vnitřním i vnějším prostředí. Omezení spočívá v konzistenci a pokrytí klíčových snímků, zvláště při komplexních pohybech uživatele během videohovoru. Zpětná vazba uživatelů při veřejných prezentacích potvrzuje intuitivní použití systému a jeho expresivní potenciál. Možnosti dalšího vývoje metody pro textově řízenou stylizaci videa v reálném čase jsou především zlepšení konzistence klíčových snímků a v automatizaci výběru snímků.
Kolekce
- Diplomové práce - 13136 [833]