Follow Your Click

1 Introduction

1.1 Problem Statement

Using user click to animate video from input image.
Control ability and local animation in video generation.
Aims to simplify control condition by user click and motion prompt.

通过用户点击来动画化输入图像,并具有对视频生成过程中控制能力和本地动画的控制能力。旨在通过用户点击和运动提示来简化控制条件。

1.2 Stated Contribution

2 Related Work

2.1 Text-to-Video Generation

目前有很多种不同的方法做Text-to-Video Generation的control. 包括但是不限于: depth, image, key points等等。

2.2 Image Animation

从输入图片生成视频,保持原有图片的特征的同时有足够好的动作质量。
新一点的方法有: dynamicrafter,livephoto等基于diffusion的方法,还有I2V-adapter基于plug-and-play的方法。

Gen-2和animate anything可以通过motion mask的方式让用户实现对图片的编辑,但是这种交互方式对用户不如点击-拖动的方式友好。

3 Method

picture/Pasted image 20240426163002.png

3.1 Preliminaries: LDM and VDM

借鉴了AnimateDiff方法,我们将预训练的图像潜态扩散模型(LDM)转变为时序到视频(T2V)模型。在这一过程中,我们通过插入时序动作模块,并冻结原有参数,来进行训练。这些时序动作模块包含一维时间注意力,在每个空间模块之后插入,主要负责捕获不同帧间同一空间位置表示之间的时间依赖关系。

3.2 Follow Your Click

3.2.1 Problem Formulation

输入:

对原图片的修由click提供目标物体,由prompt提供移动模式。 通过SAM模型来对图片进行高质量的分割,得到一个mask M。 然后基于这个mask可以确定需要被编辑的物体。

3.2.2 Regional Image Animation

Optical flow-based motion mask generation. 作者利用预训练的光流预测网络来自动生成视频中移动物体的掩码。 每一帧得到的移动物体掩码组合起来可以表示动作的幅度。 在训练阶段用最后一帧的掩码作为动作区域的真实值。 在测试阶段用SAM把click转换成motion mask。

First-frame masking training. 把第一帧的mask下采样,再编码之后,和噪音链接起来。 DynamiCrafter,Make-Your-Video都用了这种链接方式。

我们采用了v-预测参数化方法进行训练,因为在少量推断步骤时,它具有更好的采样稳定性。

3.2.3 Temporal Motion Control

Short motion caption construction. 我们发现WebVid等数据集中的标题通常包含大量场景描述性术语,而较少涉及动态或运动相关的描述。为了实现更好的短提示动作控制能力,我们构建了WebVid-Motion数据集具体来说,我们构建了50个样本,以实现GPT4的上下文学习。每个样本包含原始提示、对象以及它们的简短动态相关描述。这些样本以JSON格式输入到GPT4中,然后我们向GPT4提出相同的问题,以预测WebVid-10M中的其他短动作提示。最后,重新构建的数据集包含标题及其与动作相关的短语,例如“转头”,“微笑”,“眨眼”和“跑步”。我们在这个数据集上对我们的模型进行微调,以获得更好的短动作提示跟随能力。

Motion-augmented module. 插入新的motion-block来处理motion相关的prompt、

Optical flow-based motion strength control. 动作强度和FPS的关系不是线性的,所以需要对FPS进行改进。 在SAM得到的motion区域里,利用光流计算区域内的平均规模,然后把规模投影位置编码,再加入每帧的残差块里面,保证所有帧的动作嵌固端。

4 Experiment

4.1 Implementation Details

4.2 Comparison Results

现有模型的问题:

5 Summary

利用SAM模型将用户的点击转换成表示动作的mask作为额外条件来训练驱动一张图片生成视频的扩散模型。 构造了一个基于webvid的数据集,重新标注了描述词,着重增加了对于动作的描述,用光流估计预训练模型得到动作的起始和结束为止分别作为条件和监督信号。 用视频motion平滑的方法让模型对FPS产生感知,避免模型生成的模型不均或者过小。

6 Comments

7 Implementation