Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >在最新的计算机视觉研究中,研究人员介绍了“JoJoGAN”:一种具有一次性面部样式化的 AI 方法

在最新的计算机视觉研究中,研究人员介绍了“JoJoGAN”:一种具有一次性面部样式化的 AI 方法

作者头像
代码医生工作室
发布于 2022-03-07 09:13:21
发布于 2022-03-07 09:13:21
9220
举报
文章被收录于专栏:相约机器人相约机器人

样式映射器将预设样式应用于它接收到的照片。在最近的一项研究中,来自伊利诺伊大学厄巴纳-香槟分校的研究人员将JoJoGAN介绍为一种从单个样式样本中学习样式映射器的简单方法。例如,该技术允许没有经验的用户提供样式样本,然后将该样式应用于他们选择的图像。该团队在人脸照片的背景下讨论了它的方法,因为风格化的人脸对没有经验的用户非常有吸引力;然而,这个概念可以应用于任何图像。

学习风格映射器的过程应该简单易用,产生引人注目的高质量结果,只需要一个风格参考,但接受并受益于更多,允许用户控制转移多少风格,并允许更复杂的用户控制风格的哪些方面被转移以便有用。研究人员表明,该技术使用定性和定量证据实现了这些目标。

因为自然的方式——使用成对或不成对的图像翻译——并不真正实用,所以学习风格映射器很困难。为每种风格收集一个新数据集很不方便,因为许多风格可能没有很多样本。通过修改鉴别器,可以使用小样本学习方法微调 StyleGAN。这些方法无法生成漂亮的照片,因为它们缺乏对像素级损失的全面监控,而且它们经常无法捕捉到特定风格的细微差别和变化。

另一方面,JoJoGAN 使用 GAN 反转和 StyleGAN 的样式混合属性从参考图片(或图像——一张图像就足够了)创建配对数据集。StyleGAN 使用这个配对数据集和独特的直接像素级损失进行了微调。基础很简单:可以在不到一分钟的时间内从一张参考照片中创建映射器(以及因此大量风格化的肖像)。

JoJoGAN 可以成功地结合激进的风格参考(例如动物面孔)。自然程序决定了风格的哪些元素被使用以及风格的使用量。定性样本显示,由此产生的照片远远优于竞争方法产生的照片。该方法得到定量证据的支持。

生成器和预训练的 StyleGAN 鉴别器都以精确的分辨率进行训练。鉴别器计算在整个训练阶段不会忽略信息的特征(否则,生成器可能会产生低细节图像)。当对批次进行平均时,已知鉴别器特征可以稳定 GAN 训练。对于激活,研究人员选择在每个图像的特定层使用鉴别器激活的差异。

样式映射器应该能够产生好看的输出,正确地从样式参考中传输特征,并保持输入的身份。根据定性检查,JoJoGAN 具有这些品质,并且显着优于当前方法。

JoJoGAN 擅长捕捉形成风格的小元素,同时保持输入面部的身份。当有大量一致的风格参考时,JoJoGAN 结果通常会更好。比较了使用一组样本中的每一个的全部和多个单镜头样式的多镜头样式。当有多个样式示例时,JoJoGAN 能够混合细节以更接近输入,而一次性样式化强烈地复制样式参考中的效果(这是必须的)。

在一项研究中,该团队将 JoJoGAN 与非 DST 方法进行了比较,在另一项研究中,将其与 DST 进行了比较。向用户呈现样式参考、输入面和来自每个方法的风格化,并要求用户选择最能反映风格参考的风格化,同时保持原始身份。最初的研究得到了 31 人的 186 份回复,其中 80.6% 的人更喜欢 JoJoGAN,而不是其他方法;效果非常好,没有太大的困难。第二次调查获得了 16 人的 96 份回复,其中 74% 的人更喜欢 JoJoGAN 而不是 DST。

结论

能够使用参考照片对面部进行风格化是非常诱人的。该团队在这项工作中引入了 JoJoGAN,它可以让任何人以一种轻松的方式拍摄一张照片,从而产生令人难以置信的高质量照片,从而确定风格方面。该团队演示了如何在逼近大型配对数据集之前将 StyleGAN 用作强大的面部。它允许他们使用像素级损失对其进行微调,并捕捉其他方法缺乏的关键风格细微差别。

论文:

https://arxiv.org/pdf/2112.11641.pdf

Github:

https://github.com/mchong6/JoJoGAN

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-02-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
必读!2018最具突破性计算机视觉论文Top 10
自从卷积神经网络在特定的图像识别任务上开始超越人类以来,计算机视觉领域的研究一直在飞速发展。
新智元
2019/03/07
8680
必读!2018最具突破性计算机视觉论文Top 10
KAIST 研究人员提出 DIGAN:一种基于隐式神经表示 (INR) 的生成对抗网络 (GAN),用于使用机器学习生成视频
深度生成模型已经在包括图像和音频在内的各个领域产生了逼真的样本。视频生成最近已成为深度生成模型的下一个问题,引发了对学习视频分发的长期研究。
代码医生工作室
2022/04/14
2.1K0
KAIST 研究人员提出 DIGAN:一种基于隐式神经表示 (INR) 的生成对抗网络 (GAN),用于使用机器学习生成视频
One-Shot Image-to-Image Translation viaPart-Global Learning With aMulti-Adversarial Framework
 众所周知,人类可以从几个有限的图像样本中有效地学习和识别物体。然而,对于现有的主流深度神经网络来说,仅从少数图像中学习仍然是一个巨大的挑战。受人类思维中类比推理的启发,一种可行的策略是“翻译”丰富的源域的丰富图像,以用不足的图像数据丰富相关但不同的目标域。为了实现这一目标,我们提出了一种新的、有效的基于部分全局学习的多对抗性框架(MA),该框架实现了一次跨域图像到图像的翻译。具体而言,我们首先设计了一个部分全局对抗性训练方案,为特征提取提供了一种有效的方法,并防止鉴别器被过度拟合。然后,采用多对抗机制来增强图像到图像的翻译能力,以挖掘高级语义表示。此外,还提出了一种平衡对抗性损失函数,旨在平衡训练数据,稳定训练过程。大量实验表明,所提出的方法可以在两个极不平衡的图像域之间的各种数据集上获得令人印象深刻的结果,并且在一次图像到图像的转换上优于最先进的方法。
狼啸风云
2023/10/07
4480
One-Shot Image-to-Image Translation viaPart-Global Learning With aMulti-Adversarial Framework
NTU华人学生发布GAN模型,130毫秒生成动漫肖像!LeCun点赞:超越梵高
---- 新智元报道   来源:外媒 编辑:LRS 【新智元导读】如何把肖像画变成动漫形象一直是一个研究热点,最近NTU的一个华人博士生提出一个新模型AgileGAN,效果碾压老牌模型。把LeCun的肖像画输入进去,竟得到惊天夸赞! AgileGAN模型是一个能对肖像图进行风格化的模型,论文发表在计算机图形学顶级会议 SIGGRAPH 2021上。 当把Yann LeCun的照片输入到模型中,会发生什么?(Lecun本人会回复你) LeCun的肖像画输入到AgileGAN中,以三种形式(卡通、漫画、
新智元
2023/05/22
3930
NTU华人学生发布GAN模型,130毫秒生成动漫肖像!LeCun点赞:超越梵高
GAN“家族”又添新成员——EditGAN,不但能自己修图,还修得比你我都好
首先想让大家猜一猜,这四张图中你觉得哪张是P过的?小编先留个悬念不公布答案,请继续往下看。
AI科技评论
2021/11/23
7980
GAN“家族”又添新成员——EditGAN,不但能自己修图,还修得比你我都好
GAN 2.0!英伟达“风格迁移”面部生成器,世间万物逼真呈现
这组效果惊艳到可怕的成果,出自英伟达的研究人员最近提出的一种新的生成器架构,基于风格迁移,将面部细节分离出来,由模型进行单独调整,从而大幅度超越传统GAN等模型,生成的面部图像结果简直逼真到可怕,可以说是GAN 2.0。
新智元
2018/12/27
7530
GAN 2.0!英伟达“风格迁移”面部生成器,世间万物逼真呈现
哈工程研究人员设计一种AI算法,可以对水下照片进行除雾和着色
我们现在看到的水下图像都是模糊并且失真,这是因为光衰减和反向散射等现象会对可见度产生不利影响。为了解决这个问题,许多研究人员与学者都做出了努力,Cambride Consultants的DeepRay利用在100000个静止图像数据集上训练的GAN来消除由不透明玻璃板引起的失真,并且开源DeOldify项目采用了包括GAN在内的一系列AI模型来对旧图像和胶片进行着色和还原。在9月微软亚洲研究中心的科学家详细介绍了用于自动视频着色的端到端系统。去年,Nvidia的研究人员描述了一种框架,该框架仅可以从一个着色和带注释的视频帧中推断出颜色。并于6月推出了 Google AI 一种无需人工监督就能为灰度视频着色的算法。
AiTechYun
2020/02/10
6590
CVPR 2018摘要:第五部分
今天我们向你介绍另一部分,我们将深入了解CVPR 2018(计算机视觉和模式识别)会议的一些论文的细节。 我们已经有四个:关于计算机视觉的GAN,关于人类的姿势估计和跟踪,关于合成数据,以及最后关于域适应。 特别在第四部分中,我们提出了三篇关于同一主题的论文,这些论文实际具有数字可比性。
AI研习社
2018/12/18
4320
CVPR 2018摘要:第五部分
加州大学伯克利分校的研究人员推出了一种新的基于能力的算法,称为对比内在控制 (CIC),用于无监督技能发现
在存在外在奖励的情况下,深度强化学习 (RL) 是处理复杂控制任务的强大策略。玩像素视频游戏、掌握围棋游戏、机器人移动性和灵巧的操纵策略都是成功应用的例子。
代码医生工作室
2022/04/14
7610
加州大学伯克利分校的研究人员推出了一种新的基于能力的算法,称为对比内在控制 (CIC),用于无监督技能发现
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
最近,扩散模型在图像生成方面取得了巨大的成功。然而,当涉及到布局生成时,由于图像通常包含多个物体的复杂场景,如何对全局布局图和每个详细对象进行强大的控制仍然是一个具有挑战性的任务。
公众号机器学习与AI生成创作
2023/08/22
4.7K1
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
CMU 最新的机器学习研究分析并改进了 GAN 中的频谱归一化
GAN(生成对抗网络)是尖端的深度生成模型,以制作高分辨率、逼真的照片而闻名。GAN 的目标是从目标数据分布中生成随机样本,而只有一小部分可用的训练样本。这是通过学习两个函数来完成的:生成器 G 将随机输入噪声映射到生成的样本,判别器 D 尝试将输入样本分类为准确(即来自训练数据集)或假(即不是来自训练数据集)(即,由生成器生成)。
代码医生工作室
2022/03/07
8630
CMU 最新的机器学习研究分析并改进了 GAN 中的频谱归一化
Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈
给定梵高的星空,AI化身梵高大师,对这种抽象风格顶级理解后,做出无数幅类似的画作。
新智元
2023/08/05
2850
Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈
学习GAN必须阅读的10篇论文
生成对抗网络是深度学习中最有趣和最受欢迎的应用之一。本文将列出 10 篇关于 GAN 的论文,这些论文详细介绍了 GAN,以及了解最新技术的基础。
磐创AI
2019/05/05
6700
学习GAN必须阅读的10篇论文
20大热门项目告诉你,计算机视觉未来的五大趋势
随着深度学习的进步、计算存储的扩大、可视化数据集的激增,计算机视觉方面的研究在过去几年蓬勃发展。在自动驾驶汽车、医疗保健、零售、能源、语言学等诸多领域,计算机视觉的应用都越来越广。
小白学视觉
2019/06/02
7750
TuiGAN: Learning Versatile Image-to-ImageTranslation with Two Unpaired Images
一个无监督的图像-图像转换(UI2I)任务处理学习两个域之间的映射没有配对的图像。虽然现有的UI2I方法通常需要来自不同领域的大量未配对的图像进行训练,但是在许多情况下,训练数据是非常有限的。在本文中,我们论证了即使每个域只包含一个映像,UI2I仍然可以被实现。为此,我们提出了TuiGAN,这是一个生成模型,只针对两个非匹配的用户,相当于一次性的无监督学习。使用TuiGAN,图像将以粗到细的方式转换,其中generatedimage将逐渐从全局结构细化为局部细节。我们进行了大量的实验来验证我们的通用方法可以在各种UI2I任务上优于强基线。此外,TuiGAN能够与经过充分数据训练的最先进的UI2I模型实现相当的性能。
狼啸风云
2020/07/23
1.4K0
TuiGAN: Learning Versatile Image-to-ImageTranslation with Two Unpaired Images
给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码
机器之心报道 编辑:陈萍 你在纸上写个词,AI 只要看一眼就能模仿你的笔迹,还是看起来毫无破绽的那种。 Facebook 近日公布了一项新的图像 AI——TextStyleBrush,该技术可以复制和再现图像中的文本风格。 借助该技术,你只需要输入一个词作为「标准」,AI 就能全篇模仿你的书写风格,一键执行,效果可谓惊艳。 此外,你还可以用它替换不同场景中的文字(比如海报、垃圾桶、路标等)。下图中左侧为原始场景图像,单词显示在蓝色矩形中;右侧为文本替换后的图像。 从图中可以看出,各种风格的字体 AI
机器之心
2023/03/29
7420
给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码
最强AI人脸技术:一张图像合成动图
本文总结了来自三星莫斯科AI中心和Skolkovo科学技术研究所的研究人员提出的“Few-Shot Adversarial Learning of Realistic Neural Talking Head Models”,该模型的训练基于少量图像(few-shot),可以生成人物头像开口说话的动图。
用户1324186
2019/07/31
5.3K0
图像版GPT-3再进化!任给一句话都能精准PS,这AI设计师真令人省心
前段时间,OpenAI重磅推出的 DALL·E 神经网络模型惊艳了所有人,这个被称为“图像版GPT-3的模型,可以像魔法一般按照文字描述直接生成对应图片。
AI算法修炼营
2021/04/23
1.2K0
图像版GPT-3再进化!任给一句话都能精准PS,这AI设计师真令人省心
视频界的FaceApp研究:DeepMind建模算法生成更复杂逼真的视频
还记得前些天风靡网络的FaceApp吗,它是利用AI算法的自拍应用,把人们上传的照片中的人脸变年轻或者老化。
AiTechYun
2019/07/30
1.8K0
视频界的FaceApp研究:DeepMind建模算法生成更复杂逼真的视频
总结 | 计算机视觉领域最常见几中损失函数
损失函数在模型的性能中起着关键作用。选择正确的损失函数可以帮助你的模型学习如何将注意力集中在数据中的正确特征集合上,从而获得最优和更快的收敛。
OpenCV学堂
2020/03/18
2.7K0
推荐阅读
必读!2018最具突破性计算机视觉论文Top 10
8680
KAIST 研究人员提出 DIGAN:一种基于隐式神经表示 (INR) 的生成对抗网络 (GAN),用于使用机器学习生成视频
2.1K0
One-Shot Image-to-Image Translation viaPart-Global Learning With aMulti-Adversarial Framework
4480
NTU华人学生发布GAN模型,130毫秒生成动漫肖像!LeCun点赞:超越梵高
3930
GAN“家族”又添新成员——EditGAN,不但能自己修图,还修得比你我都好
7980
GAN 2.0!英伟达“风格迁移”面部生成器,世间万物逼真呈现
7530
哈工程研究人员设计一种AI算法,可以对水下照片进行除雾和着色
6590
CVPR 2018摘要:第五部分
4320
加州大学伯克利分校的研究人员推出了一种新的基于能力的算法,称为对比内在控制 (CIC),用于无监督技能发现
7610
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
4.7K1
CMU 最新的机器学习研究分析并改进了 GAN 中的频谱归一化
8630
Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈
2850
学习GAN必须阅读的10篇论文
6700
20大热门项目告诉你,计算机视觉未来的五大趋势
7750
TuiGAN: Learning Versatile Image-to-ImageTranslation with Two Unpaired Images
1.4K0
给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码
7420
最强AI人脸技术:一张图像合成动图
5.3K0
图像版GPT-3再进化!任给一句话都能精准PS,这AI设计师真令人省心
1.2K0
视频界的FaceApp研究:DeepMind建模算法生成更复杂逼真的视频
1.8K0
总结 | 计算机视觉领域最常见几中损失函数
2.7K0
相关推荐
必读!2018最具突破性计算机视觉论文Top 10
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
首页
学习
活动
专区
圈层
工具
MCP广场
首页
学习
活动
专区
圈层
工具
MCP广场