点击上方蓝字关注我们
点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.Diffusion Models Without Attention
标题:没有注意的扩散模型
作者:Jing Nathan Yan, Jiatao Gu, Alexander M. Rush
文章链接:https://arxiv.org/abs/2311.18257
项目代码:https://rl-at-scale.github.io/
摘要:
在高保真图像生成的最新进展中,去噪扩散概率模型 (DDPM) 已成为关键角色。然而,它们在高分辨率下的应用提出了巨大的计算挑战。当前的方法(例如修补)可以加快 UNet 和 Transformer 架构中的流程,但会牺牲表示能力。为了解决这个问题,我们引入了扩散状态空间模型(DiffuSSM),这是一种用更具可扩展性的状态空间模型主干取代注意力机制的架构。这种方法可以有效地处理更高的分辨率,而无需采用全局压缩,从而在整个扩散过程中保留详细的图像表示。我们对扩散训练中 FLOP 高效架构的关注标志着我们向前迈出了重要一步。对 ImageNet 和 LSUN 数据集在两种分辨率下的综合评估表明,DiffuSSM 在 FID 和 Inception Score 指标中与具有注意力模块的现有扩散模型相当甚至优于现有扩散模型,同时显着减少了总 FLOP 使用量。
2.DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via Diffusion Models
标题:DreamAvatar:通过扩散模型生成文本和形状引导的 3D 人体头像
作者:Yukang Cao, Yan-Pei Cao, Kai Han, Ying Shan, Kwan-Yee K. Wong
文章链接:https://arxiv.org/abs/2304.06018
项目代码:https://yukangcao.github.io/DreamAvatar/
摘要:
我们推出了 DreamAvatar,这是一个文本和形状引导框架,用于生成具有可控姿势的高质量 3D 人体化身。虽然最近关于文本引导 3D 常见对象生成的方法报告了令人鼓舞的结果,但由于人体形状、姿势和外观的复杂性,生成高质量的人体化身仍然是一个开放的挑战。我们建议 DreamAvatar 来应对这一挑战,它利用可训练的 NeRF 来预测 3D 点的密度和颜色,并利用预训练的文本到图像扩散模型来提供 2D 自我监督。具体来说,我们利用 SMPL 模型为这一代提供形状和姿势指导。我们引入了一种双观察空间设计,涉及通过可学习变形场相关的规范空间和姿势空间的联合优化。这有助于生成更完整的纹理和忠实于目标姿势的几何形状。我们还联合优化了从全身和放大的 3D 头部计算出的损失,以缓解常见的多面“Janus”问题并改善生成的头像中的面部细节。广泛的评估表明,DreamAvatar 显着优于现有方法,为文本和形状引导的 3D 人类头像生成建立了新的最先进技术。
3.Initializing Models with Larger Ones
标题:使用较大的模型初始化模型
作者:Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, Yuxiao Dong
文章链接:https://arxiv.org/abs/2311.18823
项目代码:https://github.com/OscarXZQ/weight-selection
摘要:
权重初始化在神经网络训练中起着重要作用。针对从头开始训练的网络提出并评估了广泛使用的初始化方法。然而,越来越多的预训练模型现在为解决权重初始化这一经典问题提供了新的机会。在这项工作中,我们引入了权重选择,这是一种通过从预训练的较大模型中选择权重子集来初始化较小模型的方法。这使得知识从预训练的权重转移到更小的模型。我们的实验表明,权重选择可以显着提高小模型的性能并减少其训练时间。值得注意的是,它还可以与知识蒸馏一起使用。权重选择提供了一种在资源受限的环境中利用预训练模型威力的新方法,我们希望它能够成为大模型时代训练小模型的有用工具。