Learning to Recognize and Generate Object State Transformations from Videos

Rozpoznávání a generování transformací stavů objektů z videí pomocí metod strojového učení

Supervisors

Reviewers

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Research Projects

Organizational Units

Journal Issue

Abstract

Cílem této práce je vyvinout metody samoučícího učení vedoucí k lepšímu pochopení stavů objektů a akcí měnících stav pomocí internetových videí. Těmito stavy objektů mohou být například prázdný a plný šálek s odpovídající akcí nalévání. Tato práce se věnuje detekci těchto akcí a objektů v různých stavech v dlouhých videích z internetu. Dále se práce také věnuje generování snímků zachycujícím tyto změny stavů objektů. Naším záměrem je použít pouze minimální množství manuálních anotací, protože jejich pořízení je časově velmi náročné. Hlavní přínosy této práce jsou následující. Za prvé, tato práce přináší model pro lokalizaci a klasifikaci akcí a stavů objektů v internetových videích. Model je natrénován bez použití manualní anotace videí v čase. Místo toho učící algoritmus využívá přirozeného pořadí stavů objektů při provádění akcí měnících stav, např. když je šálek prázdný před provedením akce nalévání, po níž se šálek stane plným. Model je trénován na novém souboru dat s více než 2600 hodinami instruktážních videí zobrazujících více než 34 tisíc změn stavů objektů. Za druhé, tato práce přináší difuzní model schopný generovat snímky akcí a transformací stavů objektů při zachování scény ze vstupního snímku. Model je trénován pomocí párů snímků objektu z videa před a po akci, která mění jeho stav. Snímky jsou extrahovány z instruktážních internetových videí pomocí našeho modelu pro lokalizaci ve videu. Za třetí, tato práce přináší difuzní model pro generování sekvencí instruktážních snímků. Model je podmíněn vstupním snímkem, který poskytuje kontext scény, a sekvencí textových instrukcí. Pro získání trénovacích dat práce využívá automatizovaný postup v rámci kterého jsou z instruktážních videí extrahované sekvence snímků. Tento postup je aplikován na více než milion instruktážních videí z datasetu HowTo100M. Výsledky našich metod prokazují výrazné zlepšení oproti současným pracím jak v oblasti lokalizace stavů objektů a akcí, tak v oblasti generování sekvencí instruktážních snímků.

The goal of this thesis is to develop methods for learning to understand object states and state-modifying actions using uncurated Internet videos. Those object states can be, for example, empty and full cup with the corresponding action pouring juice. We aim to detect the object states and actions in long, in-the-wild videos as well as to generate the state changes in image space. Our main focus is to achieve these goals with only minimal supervision, as temporally annotating and manually curating videos is very time-consuming. The key contributions of this thesis are the following. First, we develop a self-supervised model for temporally localizing and classifying state-modifying actions and the corresponding object states in uncurated Internet videos. The model is trained without any temporal annotation. Instead, the learning algorithm exploits the natural ordering of object states when state-modifying actions are executed, e.g., when a cup is empty before the pouring action is executed, after which the cup becomes full. We train the model on our newly collected ChangeIt dataset with more than 2600 hours of instructional videos depicting over 34 thousand changes of object states. Second, we develop a text- and image-conditioned diffusion model that can generate images of actions and object state transformations while preserving the scene from the input image. The model is trained with paired images of objects in videos before and after state-manipulating actions, i.e., containing the same object in different states. The images are extracted from instructional Internet videos using our self-supervised model for temporal localization. Third, we train a diffusion model for the generation of step-by-step visual instructions in the form of a sequence of images. The model is conditioned on an input image that provides the scene context and the sequence of textual instructions. To obtain the training data for the model, we introduce an automatic approach for collecting step-by-step visual instructions from instructional videos and apply it to one million instructional videos from the HowTo100M dataset. The results of our methods demonstrate significant improvements over the related work both in object state and action discovery, as well as in the generation of object state transformations and visual instructions.

Description

Citation

Endorsement

Review

Supplemented By

Referenced By