Latent Diffusion

Latent Diffusion的贡献在于把扩散-去噪过程从图片转移到了隐空间。 既然是隐空间,这就意味着拥有了在其他任务上推广的潜力。 ,如何将图片生成模型扩展到其他任务上。

Brief Review

详细的推导看Unconditional DiffusionClassifier-free Diffusion Guidance

方法部分照例还是一个LDM起手,这里就不再赘述,并且偷懒使用模版了。
扩散模型通常由两个过程组成:前向扩散和逆向去噪。 给定输入信号 x0,前向扩散过程定义如下:

pθ(xt|xt1)=N(1βt1βtxt1,βt1βt1I)

其中 t=1,,T 是时间步, βt(0,1) 是噪声计划。当总时间步 T 足够大时,结果 xt最终逼近高斯噪声 N(0,I)。 逆向去噪过程的目的是学习如何逆转前向扩散并逐步去除噪声,如下所示:

qθ(xt1|xt)=N(xt1;ϵθ(xt,t),Σ(xt,t))

其中 Σ(xt,t) 通常不需要训练,而是基于时间步 t 作为固定方差来计算。它只需要预测逆过程中的均值 μθ(xt,t) ,并且这一步也可以简化为训练去噪模型 ϵθ(xt,t) 来预测 x_t 的噪声 ϵ

L=EqϵN(0,I),t[ϵϵθ(xt,t,τθ(y))22]

其中 y 是文本条件, τθ() 是文本编码器。