前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一键实现图像、视频卡通化,GAN又进化了

一键实现图像、视频卡通化,GAN又进化了

作者头像
AI科技大本营
发布于 2020-07-31 02:06:42
发布于 2020-07-31 02:06:42
3.3K0
举报

作者 | Xinrui Wang, Jinze Yu

译者 | 刘畅

出品 | AI科技大本营(ID:rgzani100)

卡通爱好者的福利来了。

现在,通过在Cartoonize这个应用上一键上传你拍摄的图像或视频,就可以在很短时间内将它卡通化。其核心技术来自CVPR 2020的投稿论文,作者的背景是字节跳动和东京大学,他们提出了用白盒卡通表征实现图像卡通化。

目前,这项工作已在GitHub获得1400个Stars。作者称,他们还计划很快将开源所有代码。下一步,他们的目标是通过将模型移植到tensorflow.js来适应实时视频推理。

GitHub链接:

https://github.com/SystemErrorWang/White-box-Cartoonization

来看看这项工作的卡通化效果。

很有卡通化的味道吧?

视频卡通化的效果也可以。

当然,如果你想在这款应用上上传你拍摄的图片或视频来进行卡通化,这是地址:

https://cartoonize-lkqov62dia-de.a.run.app/cartoonize

以下是详细的论文内容解读:

本文提出了一种将图像卡通化的方法。通过观察卡通绘画行为并咨询卡通艺术家,本文提出可以从图像中分别识别三个白盒表示:一是卡通图像平滑表面的轮廓表示,二是针对稀疏色块和全局内容的结构表示,三是在卡通图像中反映高频纹理,轮廓和细节的纹理表示。作者利用生成对抗网络(GAN)框架来学习提取的表示并将图像卡通化。

本文方法的学习目标是分别基于每个提取的表示,从而使本文的框架可控和可调整。这使本文的方法能够满足不同风格和不同用处的艺术家的要求。最后,对本文方法进行了定性和定量的比较分析,以及用户研究,以验证这种方法的有效性。结果是本文方法在所有比较中均优于之前的方法。最后,消融实验表明了本文框架中每个部分的作用。

引言

卡通是一种流行的艺术形式,且已广泛应用于各种场景。现代卡通动画工作流程允许艺术家使用各种资源来创作内容。通过将真实世界的图片转换为可用的卡通场景素材,创造了一些著名的漫画,该过程称为图像卡通化。

各种卡通风格和用处需要基于特定任务或者先验知识才能开发可用的算法。例如,某些卡通工作流程更加关注全局调色板主题,但是线条的清晰度却是次要问题。在其他一些工作流程中,稀疏和干净的色块在艺术表达中起着主导作用,但是主题却相对较少强调。

这些变量因素给黑盒模型带来了不小的挑战,例如,当面对不同用例中艺术家的不同需求时,简单地更改训练数据集是无济于事的。因此有了用于图像卡通化的CartoonGAN网络,其中提出了一种具有新颖边缘损失的GAN框架,并在某些情况下取得了良好的效果。但是,使用黑盒模型直接拟合训练数据会降低其通用性和风格化质量,在某些情况下会导致较差的效果。

为了解决上述问题,本文对人们绘画的行为和不同风格的卡通形象进行了大量的观察,并咨询了少数几位卡通艺术家。根据本文的观察结果(如上图所示),本文建议将图像分解为几种卡通表征方式,并将它们列出如下:

第一步:提取一个带权重的低频内容表示图片的轮廓特征(surface representation)。这个低频内容保留了边缘/纹理等细节。这与艺术家画卡通时通常先描绘形状类似。

第二步:针对输入图像,提取一个分割图,并且在每个分割区域上使用一个自适应的色彩算法来生成结构表征(structure representation)。这是模仿画卡通画时,边界清晰且色块稀疏的胶片(celluloid)风格。

第三步:纹理表征(texture representation)是用来保持绘画细节和边缘的。将输入图像转换为仅保留相对像素强度的图像,然后引导网络独立地学习高频纹理细节。这与艺术家素描与上色是独立的两个过程类似。

单独提取的卡通表征形式使卡通化问题可以在生成神经网络(GAN)框架内进行端到端的优化,使其可扩展和可控,更加适用于实际的使用场景,并可以针对特定任务进行微调以轻松满足多样化的艺术需求。本文在各种风格不同的场景中测试了本文的将真实图片卡通化的方法。

实验结果表明,该方法可以生成色彩和谐,令人愉悦的艺术风格,清晰锐利的边缘以及明显更少的伪影。本文还显示,通过定性定量的实验和用户研究,本文方法是优于之前的最新方法。最后,本文进行了消融实验以说明每种表征方式的作用。最后,本文的贡献如下:

  • 根据对卡通绘画行为的观察,本文提出了三种卡通表示:轮廓表示,结构表示和纹理表示。然后引入图像处理模块以提取每个表示。
  • 在提取表示的指导下优化了基于GAN的图像卡通化框架。用户可以通过平衡每个表示的权重来调整模型输出的样式。
  • 已经进行了广泛的实验,表明我们的方法可以生成高质量的卡通图像。我们的方法在定性比较,定量比较和用户偏爱方面均优于现有方法。

方法

图4显示了本文提出的图像卡通化框架。它将图像分解为轮廓表征,结构表征和纹理表征,并引入了三个独立的模块来提取相应的特征表示。GAN的框架包含了一个生成器和两个判别器。一个判别器是区分卡通图的输出和轮廓特征,另一个判别器是区分卡通图的输出和纹理特征。预训练的VGG网络用于提取高级特征,并对提取的结构表示和输出之间以及输入图片和输出之间的全局内容施加空间约束。损失函数中每部分内容的权重都可以调整,这使用户可以控制输出样式并使模型适应各种用处。

轮廓表征

作者定义了一个网络F_dgf,以图片I为输入,并以它自己为guide map,输出提取的去掉纹理和细节的外观特征F(I,I)。同时定义了一个判别器D_s,用以判断真实图和卡通图的输出分布是否一致。损失函数就是经典的gan的损失函数,如下,其中Ic为输入的卡通图,Ip为真实图。

结构表征

一般超像素算法会把每个区域用区域内的均值来填充,但是作者通过实验发现这样效果不好。因此作者使用了改进的算法,他把算法称之为“adaptive coloring”,其实就是一个分段函数:

结构损失如下,其中VGG_n是使用VGG16预训练好的提取图片特征的网络,F_st为专门处理结构损失的网络。

纹理表征

作者认为亮度和颜色信息会使人很容易分辨真实和卡通图片,因此在学习纹理特征的时候,作者把RGB图转为了单通道的图,这样就排除了亮度和颜色信息的影响。

Frcs公式如上图所示,把RGB三个通道分开处理,Y表示的是RGB图转化成的灰度图。在本实验中α等于0.8,而3个β值则在-1~1之间随机。此处也定义了一个D_t判别器,来判断经过F_rcs后的输出是来自生成器生成的还是动漫图。如下所示:

总的损失函数如下:

其中TV损失是为了降低总方差,可以促进生成图像的平滑,并减轻高频的噪音。公式如下:

content的损失是为了让经过生成器后的真实图语义不变,这里也用到了预训练后的VGG。

实验

本文算法是基于tensorflow实现的,代码已开源。训练的超参基本都是常规的训练参数,而loss权重的超参是基于对训练集的统计确定的。作者对模型的性能和效果均做了分析,效果如下,本文算法在对比的算法中,是最高效的。

下图效果展示了本文算法的泛化能力,能够处理多种复杂的真实场景,包含人、动物、植物等等。

接下来作者做了消融实验,以FID为评价标准,结果如表格2所示。计算出的FID度量标准表明,卡通表征是有助于缩小现实世界的图像和卡通图像之间的距离,因为与原始图像相比,所有三个提取的卡通表征都具有较小的FID。

图10是显示消融实验中,每个特征表示的结果。图8展示了本文算法的可调控性。结果显示可以通过在损失函数中调整每个特征表征的权重来调整卡通化结果的样式。

图9与表格3是本文算法与其它算法定性定量的对比。可以看出,本文算法是更优的。

结论

本文中,作者提出了一种基于GAN的白盒可控的图像卡通化框架,该框架可以从真实图像中生成高质量的卡通化图像。输入图像被分解为三个卡通表征:轮廓表征,结构表征和纹理表征。然后使用相应的图像处理模块来提取用于网络训练的三个表征,并且可以通过调整损失函数中每个表征的权重来控制输出风格。最后进行了广泛的定量和定性实验,验证了本文方法的性能。同时消融实验也证明了每个特征表示带来的作用。

论文链接:

https://systemerrorwang.github.io/White-box-Cartoonization/paper/06791.pdf

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技大本营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Text to image论文精读ALR-GAN:文本到图像合成的自适应布局优化
ALR-GAN是北京工业大学学者提出的一种自适应布局优化生成对抗网络,其可以在没有任何辅助信息的情况下自适应地优化合成图像的布局。 文章发表于2023年,IEEE Transactions on Multimedia(TMM)期刊(CCF B,JCR1区),是一篇值得一读的文章。
中杯可乐多加冰
2025/01/08
1280
使用神经网络对图像进行卡通化
在咨询了许多卡通艺术家并观察了卡通绘画行为之后,该研究项目由王新瑞和于进泽提出,以从图像中分别识别出三种白盒表现形式:
代码医生工作室
2020/10/23
1.3K0
使用神经网络对图像进行卡通化
漂亮的人脸卡通化,小视科技开源成熟模型与训练数据
在这个过程中,以表情包和定制头像的兴起为例,人们开始尝试以融入个人特征和个性想法的卡通画来实现信息的精准传播。且传播主体不再局限于传统动画制作公司,而是以大众为主体的娱乐化传播。
CV君
2020/04/21
1.8K0
漂亮的人脸卡通化,小视科技开源成熟模型与训练数据
基于白盒表征的图像卡通化
取自CVPR2020的一篇文章Learning to Cartoonize Using White-box Cartoon Representations
Mezereon
2021/03/17
6860
基于白盒表征的图像卡通化
学习一个宫崎骏画风的图像风格转换GAN
论文标题:GANILLA: Generative Adversarial Networks for Image to Illustration Translation
AI科技评论
2020/03/17
2.5K0
学习一个宫崎骏画风的图像风格转换GAN
GAN秒变肖像画!清华刘永进提出APDrawingGAN ,CVPR Oral(附微信小程序)
肖像画是一种独特的艺术形式,通常使用一组稀疏的连续图形元素如线条来捕捉一个人的外表特征。
新智元
2019/06/19
1.2K0
GAN秒变肖像画!清华刘永进提出APDrawingGAN ,CVPR Oral(附微信小程序)
使用神经网络对图像进行卡通化
Cartoonizer项目允许用户生成其高质量图像的卡通化表示。 在咨询了许多卡通艺术家并观察了卡通绘画行为之后,该研究项目由王新瑞和于进泽提出,以从图像中分别识别出三种白盒表现形式: 表面表示:它包含卡通图像的光滑表面。 结构表示:是指赛璐style风格的工作流程中稀疏的色块和平坦的全局内容。 纹理表示:它可以反映卡通图像中的高频纹理,轮廓和细节。 为了在输入图像上获得卡通效果,如下所示GAN(生成对抗网络)框架用于学习提取的表示并将图像卡通化。 代码可用于使用此研究项目来实现图像的卡通化。 一些结果输出
博文视点Broadview
2023/04/19
4960
使用神经网络对图像进行卡通化
AI新海诚就是在下,不信来玩
现在,不需要人类画师一帧帧描画,把你拍下的视频喂给AI,就能让现实世界分分钟掉进二次元世界。
量子位
2020/08/12
7250
AI新海诚就是在下,不信来玩
GitHub 热榜:人像卡通化!
这个项目名叫「人像卡通化 (Photo to Cartoon)」,已经在 GitHub 上开源。但对于不想动手下载各种软件、数据集、训练模型的普通用户,该公司开放了一个名为「AI 卡通秀」的小程序,可以生成各种风格的卡通照片、gif 表情包,完全可以满足社交需求。
GitHubDaily
2020/04/22
11.8K0
GitHub 热榜:人像卡通化!
谷歌新款「怪物制造机」,用GAN一键生成定制版「哥斯拉」
相信很多80、90后的同学都对这一部《数码宝贝》印象深刻,童年他们也曾幻想能够拥有一只属于自己的数码兽。
新智元
2020/11/24
6880
想不想让你拍的照片秒变宫崎骏风格漫画,一起来看看CartoonGAN
让我们观察一下上面这张图片,仔细看一看,两张图片有什么不同,看出来了吧?右边这幅图明显不像现实中的车辆嘛,是不是很像漫画呢?有了这个CartoonGAN,漫画家会不会失业呀?
AI深度学习求索
2018/12/11
2.4K0
实景照片秒变新海诚风格漫画:清华大学提出CartoonGAN
CartoonGAN 的预训练模型,其中包括宫崎骏、细田守、今敏(动画电影《红辣椒》)和新海诚风格:http://cg.cs.tsinghua.edu.cn/people/~Yongjin/CartoonGAN-Models.rar
朱晓霞
2018/07/23
7540
实景照片秒变新海诚风格漫画:清华大学提出CartoonGAN
【风格化+GAN】感知对抗网络 PAN,一个框架搞定多种图像转换
【新智元导读】pix2pix 又有更新:悉尼大学的 Chaoyue Wang 等人受生成对抗网络(GAN)启发,在已有的感知损失基础上,提出了感知对抗网络(Perceptual Adversarial Network,PAN),能够持续地自动发现输出与真实图像间的差异,进一步提高图像转换的性能。在几种不同的图像转变任务中,PAN 的性能都超越了当前最优模型。 近来,卷积神经网络的发展,结合对抗生成网络(GAN)等崭新的方法,为图像转换任务带来了很大的提升,包括图像超分辨率、去噪、语义分割,还有“自动补全”,
新智元
2018/03/27
1.5K0
【风格化+GAN】感知对抗网络 PAN,一个框架搞定多种图像转换
GAN模型生成山水画,骗过半数观察者,普林斯顿大学本科生出品
近年来,基于生成对抗网络GAN模型,图像生成领域实现了许多有趣的应用,尤其是在绘画创作方面。
AI科技大本营
2020/12/08
9320
GAN模型生成山水画,骗过半数观察者,普林斯顿大学本科生出品
《深度剖析:生成对抗网络如何实现图像风格的细腻逼真迁移》
在数字图像处理与计算机视觉领域,图像风格迁移技术宛如一颗璀璨的新星,吸引着无数研究者与开发者投身其中。从将普通照片转化为梵高、莫奈等大师风格的艺术画作,到为游戏、影视创作打造独特的视觉风格,图像风格迁移展现出了巨大的应用潜力。而生成对抗网络(GAN)的出现,更是为这一领域带来了革命性的突破,让风格转换变得更加细腻、逼真。
程序员阿伟
2025/02/26
1660
《深度剖析:生成对抗网络如何实现图像风格的细腻逼真迁移》
基础 | 如何通过DCGAN实现动漫人物图像的自动生成?
基于生成对抗网络(GAN)的动漫人物生成近年来兴起的动漫产业新技术。传统的GAN模型利用反向传播算法,通过生成器和判别器动态对抗,得到一个目标生成模型。由于训练过程不稳定,网络难以收敛,导致生成的图像缺乏多样性和准确性,甚至会产生模式崩溃。本文基于深度学习,参考相关实战项目pytorch-book,学习网络的训练方法,采用经过标准化处理和分类的动漫人物面部图像知乎用户何之源分享的素材,训练DCGAN,实现动漫人物图像自动生成。在训练过程中,控制实验参数,进行定量分析和优化,得到可自动生成动漫人物图像的生成器模型。主要工作如下:
公众号机器学习与AI生成创作
2020/09/14
3.7K0
基础 | 如何通过DCGAN实现动漫人物图像的自动生成?
基于深度学习的图像真实风格迁移
本文介绍了神经风格迁移的算法原理、应用案例,以及基于深度学习的图像风格迁移技术的优势。同时,作者还探讨了在实现过程中所面临的挑战,并展望了未来研究方向。
蒋心为
2017/08/16
7K2
基于深度学习的图像真实风格迁移
图像风格迁移_图像风格迁移算法
风格迁移指的是两个不同域中图像的转换,具体来说就是提供一张风格图像,将任意一张图像转化为这个风格,并尽可能保留原图像的内容(否则就成了艺术创作了…)
全栈程序员站长
2022/11/01
3.3K0
琼恩·雪诺和龙母的孩子会长啥样?让StyleGAN告诉你
你有没有好奇过自己喜欢的电影或电视剧里的人物性别变换后是长啥样的?比如说,下面这位?
机器之心
2019/05/22
5870
【AI白身境】一文览尽计算机视觉研究方向
图像分类是计算机视觉中最基础的一个任务,也是几乎所有的基准模型进行比较的任务,从最开始比较简单的10分类的灰度图像手写数字识别mnist,到后来更大一点的10分类的cifar10和100分类的cifar100,到后来的imagenet,图像分类任务伴随着数据库的增长,一步一步提升到了今天的水平。
用户1508658
2019/07/26
8270
【AI白身境】一文览尽计算机视觉研究方向
推荐阅读
相关推荐
Text to image论文精读ALR-GAN:文本到图像合成的自适应布局优化
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档