Follow Your Pose

1 Introduction

本文关注到了人物动作这一子类的视频生成,认为缺乏视频-动作描述和先验导致了这类视频生成的落后。 所以这个工作设计了一个两阶段训练模式,利用image-pose pair数据集和pose-free video数据集训练pose-controllable T2V model.

他们用了controlnet的zero-convlution在image-pose 上训练了一个模型。 然后在里面插入新的时序层来学习时间一致性。

1.1 Stated Contribution

2 Related Work

2.1 Text-to-Video Generation

pass

2.2 Pose-to-Video Generation

Vid2vid: conditional GAN + 光流估计 + 时序一致性限制 + 多判别器
few-shot Vid2vid: 用少量例子来驱动一张输入图片
FOMM & FRAA(2021) : 提出新的pose表征方法
他们都没有高效利用文本编辑视频的能力

2.3 Controllable Diffusion Models

利用额外的信息(depth,key points, segmentation map)来控制图片生成。

3 Method

picture/Pasted image 20240426095915.png

3.1 Latent Diffusion Model

还是我们熟悉的方法,熟悉的写法。
扩散模型通常由两个过程组成:前向扩散和逆向去噪。 给定输入信号 x0,前向扩散过程定义如下: $$ p_\theta( x_t | x_{t-1} ) = \mathcal{N} \left( \sqrt{\frac{1 - \beta_{t-1}}{\beta_t}} x_{t-1}, \sqrt{\frac{\beta_t}{1 - \beta_{t-1}}} I \right) $$ 其中 t=1,,T 是时间步, βt(0,1) 是噪声计划。当总时间步 T 足够大时,结果 xt最终逼近高斯噪声 N(0,I)。 逆向去噪过程的目的是学习如何逆转前向扩散并逐步去除噪声,如下所示: $$ p_\theta( x_{t-1} | x_t ) = \mathcal{N} (x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t)) $$ 其中 Σθ(xt,t) 通常不需要训练,而是基于时间步 t 作为固定方差来计算。它只需要预测逆过程中的均值 μθ(xt,t) ,并且这一步也可以简化为训练去噪模型 ϵθ(xt,t) 来预测 x_t 的噪声 ϵ : $$ L = \mathbb{E}{q{\epsilon \sim \mathcal{N}(0,I)}, t} \left[ \left| \epsilon - \epsilon_\theta(x_t, t, \tau_\theta(y)) \right|_2^2 \right] $$ 其中 y 是文本条件, τθ() 是文本编码器。

3.2 Pose-Guided T2V

这个工作是基于text-to-image的预训练模型做的。

3.2.1 Stage 1: Pose Controllable Training

3.2.2 Stage 2: Pose Free Video Training

4 Experiment

4.1 Implementation Details

4.2 Quantative Result

picture/Pasted image 20240426095829.png

5 Summary

基于T2I的预训练模型,通过插入pose encoder和SA等网络将T2I转变成了一个可以控制pose的视频生成模型。 作者用了类controlnet提出的zero-convution来初始化条件控制,通过插入SA和cross-frame SA来提升连贯性。 除此之外,重用DDIM采样结果来作为视频后续帧的先验。 实验结果上,在CLIP score,pose acc, frame consistency上超过了之前的方法。

6 Comments

7 Implementation