首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >英伟达公布StyleGAN-XL:参数量3倍于StyleGAN3,计算时间仅为五分之一

英伟达公布StyleGAN-XL:参数量3倍于StyleGAN3,计算时间仅为五分之一

作者头像
机器之心
发布于 2022-05-31 13:10:19
发布于 2022-05-31 13:10:19
8200
举报
文章被收录于专栏:机器之心机器之心

选自arXiv

作者:AXEL SAUER

机器之心编译

编辑:蛋酱

StyleGAN-XL 首次在 ImageNet 上实现了 1024^2 分辨率图像合成。

近年来,计算机图形学领域的研究者一直致力于生成高分辨率的仿真图像,并经历了一波以数据为中心的真实可控内容创作浪潮。其中英伟达的 StyleGAN 在图像质量和可控性方面为生成模型树立了新的标杆。

但是,当用 ImageNet 这样的大型非结构化数据集进行训练时,StyleGAN 还不能取得令人满意的结果。另一个存在的问题是,当需要更大的模型时,或扩展到更高的分辨率时,这些方法的成本会高得令人望而却步。

比如,英伟达的 StyleGAN3 项目消耗了令人难以想象的资源和电力。研究者在论文中表示,整个项目在 NVIDIA V100 内部集群上消耗了 92 个 GPU year(即单个 GPU 一年的计算)和 225 兆瓦时(Mwh)的电力。有人说,这相当于整个核反应堆运行大约 15 分钟。

最初,StyleGAN 的提出是为了明确区分变量因素,实现更好的控制和插值质量。但它的体系架构比标准的生成器网络更具限制性,这些限制似乎会在诸如 ImageNet 这种复杂和多样化的数据集上训练时带来相应代价。

此前有研究者尝试将 StyleGAN 和 StyleGAN2 扩展到 ImageNet [Grigoryev et al. 2022; Gwern 2020],导致结果欠佳。这让人们更加相信,对于高度多样化的数据集来说,StyleGAN 可能会从根本上受到限制。

受益于更大的 batch 和模型尺寸,BigGAN [Brock et al. 2019] 是 ImageNet 上的图像合成 SOTA 模型。最近,BigGAN 的性能表现正在被扩散模型 [Dhariwal and Nichol 2021] 超越。也有研究发现,扩散模型能比 GAN 实现更多样化的图像合成,但是在推理过程中速度明显减慢,以前的基于 GAN 的编辑工作不能直接应用。

此前在扩展 StyleGAN 上的失败尝试引出了这样一个问题:架构约束是否从根本上限制了基于 Style 的生成器,或者 missing piece 是否是正确的训练策略。最近的一项工作 [Sauer et al. 2021] 引入了 Projected GAN,将生成和实际的样本投射到一个固定的、预训练的特征空间。重组 GAN 设置这种方式显著改进了训练稳定性、训练时间和数据效率。然而,Projected GAN 的优势只是部分地延伸到了这项研究的单模态数据集上的 StyleGAN。

为了解决上述种种问题,英伟达的研究者近日提出了一种新的架构变化,并根据最新的 StyleGAN3 设计了渐进式生长的策略。研究者将改进后的模型称为 StyleGAN-XL,该研究目前已经入选了 SIGGRAPH 2022

  • 论文地址:https://arxiv.org/pdf/2202.00273.pdf
  • 代码地址:https://github.com/autonomousvision/stylegan_xl

这些变化结合了 Projected GAN 方法,超越了此前在 ImageNet 上训练 StyleGAN 的表现。为了进一步改进结果,研究者分析了 Projected GAN 的预训练特征网络,发现当计算机视觉的两种标准神经结构 CNN 和 ViT [ Dosovitskiy et al. 2021] 联合使用时,性能显著提高。最后,研究者利用了分类器引导这种最初为扩散模型引入的技术,用以注入额外的类信息。

总体来说,这篇论文的贡献在于推动模型性能超越现有的 GAN 和扩散模型,实现了大规模图像合成 SOTA。论文展示了 ImageNet 类的反演和编辑,发现了一个强大的新反演范式 Pivotal Tuning Inversion (PTI)[ Roich et al. 2021] ,这一范式能够与模型很好地结合,甚至平滑地嵌入域外图像到学习到的潜在空间。高效的训练策略使得标准 StyleGAN3 的参数能够增加三倍,同时仅用一小部分训练时间就达到扩散模型的 SOTA 性能。

这使得 StyleGAN-XL 能够成为第一个在 ImageNet-scale 上演示 1024^2 分辨率图像合成的模型

将 StyleGAN 扩展到 ImageNet

实验表明,即使是最新的 StyleGAN3 也不能很好地扩展到 ImageNet 上,如图 1 所示。特别是在高分辨率时,训练会变得不稳定。因此,研究者的第一个目标是在 ImageNet 上成功地训练一个 StyleGAN3 生成器。成功的定义取决于主要通过初始评分 (IS)[Salimans et al. 2016] 衡量的样本质量和 Fréchet 初始距离 (FID)[Heusel et al. 2017] 衡量的多样性。

在论文中,研究者也介绍了 StyleGAN3 baseline 进行的改动,所带来的提升如下表 1 所示:

研究者首先修改了生成器及其正则化损失,调整了潜在空间以适应 Projected GAN (Config-B) 和类条件设置 (Config-C);然后重新讨论了渐进式增长,以提高训练速度和性能 (Config-D);接下来研究了用于 Projected GAN 训练的特征网络,以找到一个非常适合的配置 (Config-E);最后,研究者提出了分类器引导,以便 GAN 通过一个预训练的分类器 (Config-F) 提供类信息。

这样一来,就能够训练一个比以前大得多的模型,同时需要比现有技术更少的计算量。StyleGAN-XL 在深度和参数计数方面比标准的 StyleGAN3 大三倍。然而,为了在 512^2 像素的分辨率下匹配 ADM [Dhariwal and Nichol 2021] 先进的性能,在一台 NVIDIA Tesla V100 上训练模型需要 400 天,而以前需要 1914 天。(图 2)。

实验结果

在实验中,研究者首先将 StyleGAN-XL 与 ImageNet 上的 SOTA 图像合成方法进行比较。然后对 StyleGAN-XL 的反演和编辑性能进行了评价。研究者将模型扩展到了 1024^2 像素的分辨率,这是之前在 ImageNet 上没有尝试过的。在 ImageNet 中,大多数图像的分辨率较低,因此研究者用超分辨率网络 [Liang et al. 2021] 对数据进行了预处理。

图像合成 

如表 2 所示,研究者在 ImageNet 上对比了 StyleGAN-XL 和现有最强大的 GAN 模型及扩散模型的图像合成性能。

有趣的是,StyleGAN-XL 在所有分辨率下都实现了高度的多样性,这可以归功于渐进式生长策略。此外,这种策略使扩大到百万像素分辨率的合成变成可能。

在 1024^2 这一分辨率下,StyleGAN-XL 没有与 baseline 进行比较,因为受到资源限制,且它们的训练成本高得令人望而却步。

图 3 展示了分辨率提高后的生成样本可视化结果。

反演和操纵

同时,还可以进一步细化所得到的重构结果。将 PTI [Roich et al. 2021] 和 StyleGAN-XL 相结合,几乎可以精确地反演域内 (ImageNet 验证集) 和域外图像。同时生成器的输出保持平滑,如下图 4 所示。

图 5、图 6 展示了 StyleGAN-XL 在图像操纵方面的性能:

更多细节可参考原论文。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
GAN强势归来?英伟达耗费64个A100训练StyleGAN-T,优于扩散模型
选自arXiv 作者:AXel Sauer 机器之心编译 编辑:赵阳 扩散模型在文本到图像生成方面是最好的吗?不见得,英伟达等机构推出的新款 StyleGAN-T,结果表明 GAN 仍具有竞争力。 文本合成图像任务是指,基于文本内容生成图像内容。当下这项任务取得的巨大进展得益于两项重要的突破:其一,使用大的预训练语言模型作为文本的编码器,让使用通用语言理解实现生成模型成为可能。其二,使用由数亿的图像 - 文本对组成的大规模训练数据,只要你想到的,模型都可以合成。 训练数据集的大小和覆盖范围持续飞速扩大。因
机器之心
2023/03/29
4720
GAN强势归来?英伟达耗费64个A100训练StyleGAN-T,优于扩散模型
GAN归来:模型大幅简化,训练更稳定,逆袭扩散模型,AI社区疯传
现代版 GAN 基准论文成为了周五 HuggingFace 热度最高的研究。该论文也入选了 NeurIPS 2024。
机器之心
2025/02/03
1650
GAN归来:模型大幅简化,训练更稳定,逆袭扩散模型,AI社区疯传
英伟达超快StyleGAN回归,比Stable Diffusion快30多倍,网友:GAN好像只剩下快了
萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 扩散模型的图像生成统治地位,终于要被GAN夺回了? 就在大伙儿喜迎新年之际,英伟达一群科学家悄悄给StyleGAN系列做了个升级,变出个PLUS版的StyleGAN-T,一下子在网上火了。 无论是在星云爆炸中生成一只柯基: 还是基于虚幻引擎风格渲染的森林: 都只需要接近0.1秒就能生成! 同等算力下,扩散模型中的Stable Diffusion生成一张图片需要3秒钟,Imagen甚至需要接近10秒。 不少网友的第一反应是: GAN,一个我太久没听到
量子位
2023/02/23
7100
英伟达超快StyleGAN回归,比Stable Diffusion快30多倍,网友:GAN好像只剩下快了
GAN的反击:朱俊彦CVPR新作GigaGAN,出图速度秒杀Stable Diffusion
机器之心报道 编辑:张倩、小舟 在文生图领域,扩散模型似乎已经一统天下,让曾经也风头无两的 GAN 显得有些过时。但两相比较,GAN 依然存在不可磨灭的优势。这使得一些研究者在这一方向上持续努力,并取得了非常实用的成果。相关论文已被 CVPR 2023 接收。 图像生成是当前 AIGC 领域最热门的方向之一。近期发布的图像生成模型如 DALL・E 2、Imagen、Stable Diffusion 等等,开创了图像生成的新时代,实现了前所未有的图像质量和模型灵活性水平。扩散模型也成为目前占据主导地位的范式
机器之心
2023/03/29
6870
GAN的反击:朱俊彦CVPR新作GigaGAN,出图速度秒杀Stable Diffusion
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周主要论文包括:上海交通大学、Digital Brain Lab、牛津大学等的研究者用新型 Transformer 架构解决多智能体强化学习问题;ICRA 2022 最佳论文出炉,美团无人机团队获唯一最佳导航论文奖等研究。 目录 Multi-Agent Reinforcement Learning is A Sequence Modeling Problem  StyleGAN-XL: Scaling StyleG
机器之心
2022/06/07
9320
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉
英伟达发布最强图像生成器StyleGAN2,生成图像逼真到吓人
StyleGAN 生成的图像非常逼真,它是一步一步地生成人工的图像,从非常低的分辨率开始,一直到高分辨率(1024×1024)。通过分别地修改网络中每个级别的输入,它可以控制在该级别中所表示的视觉特征,从粗糙的特征(姿势、面部形状)到精细的细节(头发颜色),而不会影响其它的级别。
新智元
2019/12/18
2.9K0
耗电量相当核反应堆运行15分钟,英伟达开源的StyleGAN3果然残暴
今年 7 月,英伟达 StyleGAN 团队在 NeurIPS 2021 论文《 Alias-Free Generative Adversarial Networks 》中推出了 Alias-Free GAN,也即 StyleGAN3。
机器之心
2021/10/15
1.1K0
耗电量相当核反应堆运行15分钟,英伟达开源的StyleGAN3果然残暴
压缩版styleGAN,合成高保真图像,参数更少、计算复杂度更低
机器之心报道 作者:小舟、陈萍 一个名为 MobileStyleGAN 的新架构大大减少了基于样式 GAN 的参数量,降低了计算复杂度。 近年来在生成图像建模中,生成对抗网络(GAN)的应用越来越多。基于样式(style-based)的 GAN 可以生成不同层次的细节,大到头部形状、小到眼睛颜色,它在高保真图像合成方面实现了 SOTA,但其生成过程的计算复杂度却非常高,难以应用于智能手机等移动设备。 近日,一项专注于基于样式的生成模型的性能优化的研究引发了大家的关注。该研究分析了 StyleGAN2 中最
机器之心
2023/03/29
5000
压缩版styleGAN,合成高保真图像,参数更少、计算复杂度更低
特拉维夫大学把StyleGAN进行了大汇总,全面了解SOTA方法、架构新进展
机器之心报道 机器之心编辑部 一文了解 StyleGAN 架构、方法和应用的最新进展。 GAN 生成高分辨率图像的能力正在彻底改变图像合成和处理领域。2019 年 Karras 等人提出 StyleGAN ,该技术走到了图像合成的最前沿,被公认为是最先进的高质量图像生成器。我们先来看下 StyleGAN 的合成效果: StyleGAN 不受监督,但它的潜在空间却表现的令人惊讶。事实证明,StyleGAN 性能非常好,甚至支持线性潜在算法。例如,它支持在一组潜在代码中添加一个表示年龄的向量,使图像中人物年龄
机器之心
2022/04/06
7380
特拉维夫大学把StyleGAN进行了大汇总,全面了解SOTA方法、架构新进展
GAN已死?GAN万岁!布朗康奈尔新作爆火,一夜碾压扩散模型
此前曾掀起AI圈巨大风暴的GAN,后来却逐渐沉寂了,甚至有人发出了「GAN已死」的论调。
新智元
2025/02/15
1980
GAN已死?GAN万岁!布朗康奈尔新作爆火,一夜碾压扩散模型
为什么让GAN一家独大?Facebook提出非对抗式生成方法GLANN
这种新方法在图像生成上能与 GAN 相媲美,也许除了 VAE、Glow 和 Pixcel CNN,这种新模型也能加入到无监督生成的大家庭中。当然在即将到来的 2019 年中,我们也希望 GAN 之外的更多生成模型会得到更多的成长,也希望生成模型能有更多的新想法。
机器之心
2019/01/02
5080
DiffiT | 英伟达提出用于图像生成的扩散ViT架构DiffiT,达成新SOTA!
https://arxiv.org/abs/2312.02139 https://github.com/NVlabs/DiffiT
AIWalker
2023/12/12
9140
DiffiT | 英伟达提出用于图像生成的扩散ViT架构DiffiT,达成新SOTA!
涂鸦涂出摄影大片:英伟达「高更」GAN让简笔画秒变逼真图像
英伟达新方法在 Flickr Landscapes 数据集上的语义图像合成结果,并不是真人拍摄的哦~
机器之心
2019/04/09
1.2K0
涂鸦涂出摄影大片:英伟达「高更」GAN让简笔画秒变逼真图像
Arxiv2023 | TriA-GAN:任意人物,任何地方,任何姿势的合成
Paper title: Synthesizing Anyone, Anywhere, in Any Pose
BBuf
2023/08/25
4310
Arxiv2023 | TriA-GAN:任意人物,任何地方,任何姿势的合成
学界 | 史上最强GAN图像生成器,Inception分数提高两倍
在向 ICLR 2019 提交的论文中,有一篇 GAN 生成图像的论文引起了所有人的注意,很多学者惊呼:不敢相信这样高质量的图像竟是 AI 生成出来的。其中生成图像的目标和背景都高度逼真、边界自然,并且图像插值每一帧都相当真实,简直能称得上「创造物种的 GAN」。该论文还引起了 Oriol Vinyals、Ian Goodfellow 的关注。
朱晓霞
2018/10/22
8970
学界 | 史上最强GAN图像生成器,Inception分数提高两倍
汇总简析:GAN和扩散模型生成训练数据
1)提出的扩散嵌入网络可以解决流形不匹配问题,并且易于生成潜码,与 ImageNet 潜在空间更好地匹配。
公众号机器学习与AI生成创作
2023/02/23
2.7K0
汇总简析:GAN和扩散模型生成训练数据
CVPR 2021 Oral | GLEAN:基于隐式生成库的高倍率图像超分辨率
在 CVPR 2021 上, 南洋理工大学 S-Lab 和商汤科技等提出的隐式生成库(Generative Latent Bank), 针对高倍率图像超分辨中的质量和保真度问题提出了一个新的思路。GLEAN 通过利用预训练的 GAN 中丰富多样的先验知识,得到有效的超分效果。与现有方法相比,由 GLEAN 放大的图像在保真度和纹理真实度方面显示出明显的改进。
AI科技评论
2021/04/29
1.6K0
压缩StyleGAN,合成高保真图像,参数更少、计算复杂度更低
近年来在生成图像建模中,生成对抗网络(GAN)的应用越来越多。基于样式(style-based)的 GAN 可以生成不同层次的细节,大到头部形状、小到眼睛颜色,它在高保真图像合成方面实现了 SOTA,但其生成过程的计算复杂度却非常高,难以应用于智能手机等移动设备。
公众号机器学习与AI生成创作
2021/04/19
7240
压缩StyleGAN,合成高保真图像,参数更少、计算复杂度更低
StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源
刚刚英伟达最新推出的升级版StyleGAN 3,因为一组合成艺术作品刷爆Twitter,不少网友感叹:AI 制造了人类无法理解的恐怖!
AI科技评论
2021/10/21
1.2K0
Github开源趋势榜Top 1:英伟达升级发布二代StyleGAN,效果更完美
2018 年底,英伟达借鉴风格迁移的思路,提出当时最先进的无条件生成模型—— StyleGAN ,吸引了大家广泛关注。随后,代码开源,一位 Uber 工程师更是利用此模型设计了网站“ThisPersonDoesNotExist.com”,轰动一时。自此,对虚假信息生成技术的研究与讨论延续至今。
AI科技大本营
2019/12/23
9570
Github开源趋势榜Top 1:英伟达升级发布二代StyleGAN,效果更完美
推荐阅读
GAN强势归来?英伟达耗费64个A100训练StyleGAN-T,优于扩散模型
4720
GAN归来:模型大幅简化,训练更稳定,逆袭扩散模型,AI社区疯传
1650
英伟达超快StyleGAN回归,比Stable Diffusion快30多倍,网友:GAN好像只剩下快了
7100
GAN的反击:朱俊彦CVPR新作GigaGAN,出图速度秒杀Stable Diffusion
6870
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉
9320
英伟达发布最强图像生成器StyleGAN2,生成图像逼真到吓人
2.9K0
耗电量相当核反应堆运行15分钟,英伟达开源的StyleGAN3果然残暴
1.1K0
压缩版styleGAN,合成高保真图像,参数更少、计算复杂度更低
5000
特拉维夫大学把StyleGAN进行了大汇总,全面了解SOTA方法、架构新进展
7380
GAN已死?GAN万岁!布朗康奈尔新作爆火,一夜碾压扩散模型
1980
为什么让GAN一家独大?Facebook提出非对抗式生成方法GLANN
5080
DiffiT | 英伟达提出用于图像生成的扩散ViT架构DiffiT,达成新SOTA!
9140
涂鸦涂出摄影大片:英伟达「高更」GAN让简笔画秒变逼真图像
1.2K0
Arxiv2023 | TriA-GAN:任意人物,任何地方,任何姿势的合成
4310
学界 | 史上最强GAN图像生成器,Inception分数提高两倍
8970
汇总简析:GAN和扩散模型生成训练数据
2.7K0
CVPR 2021 Oral | GLEAN:基于隐式生成库的高倍率图像超分辨率
1.6K0
压缩StyleGAN,合成高保真图像,参数更少、计算复杂度更低
7240
StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源
1.2K0
Github开源趋势榜Top 1:英伟达升级发布二代StyleGAN,效果更完美
9570
相关推荐
GAN强势归来?英伟达耗费64个A100训练StyleGAN-T,优于扩散模型
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档