Sora建立在DiT模型上(Scalable Diffusion Models with Transformers, ICCV 2023)

"Scalable Diffusion Models with Transformers" 是一篇由 William Peebles 撰写的研究论文,其中提出了一种基于 Transformer 的扩散模型,用于生成高质量的图像。这种方法结合了扩散模型和 Transformer 的优点,实现了可扩展的高质量图像生成。
Transformer 是一种注意力机制的神经网络架构,最初被用于自然语言处理任务,如机器翻译和文本摘要。Transformer 的关键特点是其自注意力机制,它可以捕捉输入序列中不同位置之间的关系,后期也成功把transformer 的注意力机制应用到计算机视觉任务中。
在本论文中,作者提出了一种基于 Transformer 的扩散模型,用于生成高质量的图像。该模型通过将扩散过程分解为多个阶段,每个阶段都由一个 Transformer 来计算注意力机制。从而实现了可扩展的高质量图像生成。具体来说,该模型包括以下几个部分:
噪声分布:模型从一个简单的随机噪声分布开始,该噪声分布可以是高斯分布或均匀分布等。
扩散过程:模型通过一系列的扩散步骤将噪声分布逐步转化为目标数据分布。每一步都通过一个 Transformer 实现,该 Transformer 负责根据当前状态来预测下一个状态。
采样过程:模型通过反向的扩散过程从噪声分布生成新的样本。该过程通过一个 Transformer 实现,该 Transformer 负责根据当前状态来预测上一个状态。
损失函数:模型使用一个对数似然损失函数来训练,该损失函数用于最大化生成样本的对数似然。
该模型的主要功能是生成高质量的图像。通过结合扩散模型和 Transformer 的优点,该模型可以生成具有复杂结构和细节的图像,同时保持生成过程的可扩展性和稳定性。
领取专属 10元无门槛券
私享最新 技术干货