

https://arxiv.org/pdf/2312.09608.pdf https://github.com/hutaiHang/Faster-Diffusion
扩散模型中的一个关键组件是用于噪声预测的UNet。虽然一些工作已经探索了UNet解码器的基本属性,但其编码器在很大程度上仍未被探索。
除了标准的文本到图像任务外,我们还在其他任务上验证了我们的方法:文本到视频、个性化生成和参考引导生成。在不使用任何知识提取技术的情况下,我们的方法将稳定扩散(SD)和DeepFloyd-IF模型的采样速度分别提高了41%和24%,同时保持了高质量的生成性能


从上述两图可以得出如下两点发现:
。我们想知道在相邻的时间步长上的层次特征的变化,结果如图2所示。这些曲线显示出类似的趋势:在初始增加之后,变化达到平稳期,然后下降,随后继续增长直至结束。然而,在数量上,
和
的变化程度明显不同。总之,在整个推理阶段,总体特征变化
小于
。
那么,我们是否可以在某些特定时间移除编码器模块呢?我们建议在某些时间步省略编码器,并循环重用解码器在以前的时间步的编码器功能。具体来说,我们在时间步t-1(t-1 < T)删除编码器,相应的解码器(包括跳过连接)将编码器E在前一个时间步t的分层输出作为输入,而不是像标准SD采样那样将当前时间步t-1的分层输出作为输入。
编码器传播使用来自前一个时间步的编码器输出作为当前解码器的输入,可以在推理时加速扩散模型采样。

上图给出了本文实现方案,如c图对应的均匀编码器传播与e图对应的非均匀编码器传播。该部分信息建议查看代码进一步加深理解~

虽然编码器传播可以提高推理阶段的效率,但我们观察到它会导致生成结果中的纹理信息的轻微丢失。受相关文献启发,我们提出了一种先验噪声注入策略:它将初始潜码zT结合到后续时间步长的生成过程中,如果t < τ,则遵循zt = zt+α·zT,其中α = 0.003是控制zT影响的尺度参数。我们从τ = 25步开始使用这种注入机制。这种策略性的结合成功地改进了纹理信息。重要的是,它需要的额外计算资源几乎可以忽略不计。这种方法确保了SD和zT注入在频域中生成的结果非常相似,生成的图像保持了所需的保真度。


我们显著地加速了扩散采样,而性能下降可以忽略不计。具体来说,
此外,我们的方法可以与最新的采样技术相结合,如DPM-Solver,DPMSolver++。我们的方法提高了采样效率,同时保持了良好的模型性能,FID和Clipscore值的变化可以忽略不计。我们的方法在不同的采样步骤中实现了良好的性能。重要的是,这些结果表明,我们的方法是正交的,并与这些加速技术兼容。



在本文中,我们研究了UNet中的文本到图像扩散模型的编码器和解码器的特性,发现编码器在很多时间步上是可以忽略的,而解码器在所有时间步上都起着重要的作用。基于这一发现,我们提出了用于有效扩散采样的编码器传播,从而减少了不同生成任务集上的稳定扩散和DeepFloyd-IF的时间。实验结果表明,该方法在保证图像质量的同时,提高了采样效率。但它也存在一定局限性:尽管我们的方法实现了有效的扩散采样,但是当使用有限数量(如5)的采样步骤时,它面临着生成质量的挑战。