Latent Diffusion的贡献在于把扩散-去噪过程从图片转移到了隐空间。 既然是隐空间,这就意味着拥有了在其他任务上推广的潜力。 ,如何将图片生成模型扩展到其他任务上。
Brief Review
详细的推导看Unconditional Diffusion和Classifier-free Diffusion Guidance
方法部分照例还是一个LDM起手,这里就不再赘述,并且偷懒使用模版了。
扩散模型通常由两个过程组成:前向扩散和逆向去噪。 给定输入信号 ,前向扩散过程定义如下:
其中 是时间步, 是噪声计划。当总时间步 足够大时,结果 最终逼近高斯噪声 。 逆向去噪过程的目的是学习如何逆转前向扩散并逐步去除噪声,如下所示:
其中 通常不需要训练,而是基于时间步 作为固定方差来计算。它只需要预测逆过程中的均值 ,并且这一步也可以简化为训练去噪模型 来预测 x_t 的噪声 :
其中 是文本条件, 是文本编码器。