Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >MIT提出精细到头发丝的语义分割技术,打造效果惊艳的特效电影

MIT提出精细到头发丝的语义分割技术,打造效果惊艳的特效电影

作者头像
机器之心
发布于 2018-09-20 10:05:57
发布于 2018-09-20 10:05:57
1.4K0
举报
文章被收录于专栏:机器之心机器之心

选自MIT

作者:Adam Conner-Simons

机器之心编译

来自 MIT CSAIL 的研究人员开发了一种精细程度远超传统语义分割方法的「语义软分割」技术,连头发都能清晰地在分割掩码中呈现。在对比实验中,他们的结果远远优于 PSPNet、Mask R-CNN、spectral matting 等基准。这项技术对于电影行业的 CGI 技术具有重大意义,精细的分割掩码能很好地分离图像中的前景和背景,只要鼠标一点,就能轻易地改变前景、背景的种类。也就是说,像《变形金刚》《复仇者联盟》《奇幻森林》中的大部分电影特效将可以完全自动化地生成。

随着电影越来越关注 CGI,电影制作人必须更加擅长「合成」,即将前景和背景图像融合,比如将演员放在飞机或行星上,或者放在电影《黑豹》里瓦坎达这样的虚构世界中。

让这些图像看起来真实并不容易。编辑必须捕捉前景和背景之间微妙的美学过渡,这对于头发这种复杂精细的材料来说尤其困难,因为人们已经习惯了它的样子。

麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)的访问研究员 Yagiz Aksoy 说:「这些图像的棘手之处在于,并非每个像素都只属于一个物体。很多情况下,你很难确定哪些像素属于背景,哪些属于特定的人。」

除了那些经验最丰富的编辑,对其他人来说要把这些细节都处理好是一件乏味、耗时且非常困难的事情。但是在一篇新论文中,Aksoy 和他在 MIT CSAIL 的同事展示了一种方法,使用机器学习来自动化照片编辑过程中的多个步骤,并且称这种方法也可用于运动图像。

该方法允许他们自动将输入图像分解成一组不同的层,这些层被层之间的一系列「软过渡」分隔开。

该系统被称为「语义软分割」(semantic soft segmentation,SSS),它分析原始图像的纹理和颜色,并将其与神经网络收集的图像中物体的实际信息相结合。

Aksoy 说,「一旦计算出这些软分割,用户就不必手动改变过渡或对图像特定层的外观进行单独修改。」他上周在温哥华的计算机图形学会议 SIGGRAPH 上展示了这篇论文。「手动编辑任务,如替换背景和调整颜色,将会变得更加容易。」

不过要说明的一点是,SSS 目前专注于静态图像。但是该团队表示,不久以后将它用于视频也是可以的,这将推动其在电影制作中的应用。

Aksoy 表示,该方法不需要专业编辑花几分钟时间逐个帧、逐个像素地调整图像,而是使处理过程更简单、快速,以便非专业用户也可以更容易地进行图像编辑。他们期望,编辑只需点击一下鼠标,就能组合图像,创造那些成熟、真实的幻想世界。

他还表示,SSS 的目前版本可用于社交平台,如 Instagram 和 Snapchat,以使其过滤器更加真实,特别是用于改变自拍背景或模拟特定类型的相机时。未来,研究人员计划将计算图像所需时间从几分钟缩短到几秒钟,并通过提高系统匹配颜色和处理光照、阴影等问题的能力使图像变得更加逼真。

论文:Semantic Soft Segmentation

论文链接:http://cfg.mit.edu/sites/cfg.mit.edu/files/sss_3.pdf

摘要:对图像区域之间的软过渡进行准确表征对于高品质图像编辑及合成至关重要。生成此类表征的现有技术很大程度上依赖于技术娴熟的视觉艺术家,因为执行此类精确目标选择是一项繁冗的任务。本研究介绍了语义软分割——一组与图像中语义有意义的区域相对应的层,它们在不同对象之间有准确的软过渡。我们利用光谱分割角度来处理这个问题,并提出了一种图结构,其包含图像的纹理和颜色特征以及神经网络生成的高级语义信息。软分割是通过精心构建的拉普拉斯矩阵的特征分解完全自动生成的。使用我们的语义软分割,原本复杂的图像编辑任务可以毫不费力地完成。

图 1:我们提出了一种方法,通过将高层次和低层次的图像特征融合在一个图结构中来自动生成软分割,即表示语义上有意义的区域以及它们之间软过渡的层。语义软分割使用为每个分割部分分配纯色的方法实现可视化,它们可用作目标图像编辑任务的掩码,所选图层可在图层颜色评估之后用于合成。原始图像来自 [Lin et al. 2014](左上、右下)、Death to the Stock Photo(右上)、Y. Aksoy(左下)。

图 2:对于输入图像,我们生成像素级的超维语义特征向量,并利用纹理和语义信息定义一张图。构建该图的目的是使对应的拉普拉斯矩阵及其特征向量能够揭示语义对象和对象之间的软过渡(soft transition)。我们使用特征向量创建初步的软分割集,并结合它们获取具备语义含义的分割。最后,我们细化软分割,使之可用于目标图像编辑任务。图源:[Lin et al. 2014],编辑结果的背景来自 Flickr 用户 rumpleteaser。

图 9、10:我们展示了我们的结果以及 Zhao et al. [2017] (PSPNet)、He et al. [2017] (Mask R-CNN) 和光谱抠图(spectral matting)[Levin et al. 2008b] 的结果。分割结果在灰度图像上重叠展示,方便围绕分割边界进行更好的评估。注意:PSPNet 和 Mask R-CNN 在物体边界方面不够准确,而光谱抠图的软分割结果超出了对象边界。图源:[Lin et al. 2014]。

图 11:利用输入图像(a)和特征向量(b),我们的方法生成了 matte,见(c)。我们展示了具备不同未知区域宽度的 trimap,它们通过 PSPNet [Zhao et al. 2017] (d) 或 Mask R-CNN [He et al. 2017] (e) 的语义分割方法生成,无法可靠地提供前景和背景区域,对使用信息流抠图(information-flow matting)[Aksoy et al. 2017a] 生成的结果造成负面影响。在底部示例中,PSPNet trimap 是通过选择与对象对应的单个类别(左)或所有类别而生成的。我们还提供利用结果(f)生成的 trimap 的抠图结果,展示了在给出准确 trimap 的情况下抠图算法的性能。图源: [Lin et al. 2014]。

方法

我们的目标是从输入图像自动生成软分割,也就是将场景中的目标分解成多个层进行表征,包括透明度和软过渡。每个层的每个像素由一个不透明度α∈[0,1] 增强,α=0 表示全透明,α=1 表示完全不透明,中间值表示部分不透明的程度。和该领域的其它研究(如 [Aksoy et al. 2017b; Singaraju and Vidal 2011])一样,我们使用了一个加性的图像构造模型:

即我们将输入的 RGB 像素表达为每个层 i 的像素之和,这些层由对应的α值加权。我们还把每个像素的多个α值的和限制为 1,以表示完整的不透明输入图像。

我们的方法使用了与光谱抠图相同的形式,也就是将软分割任务形式化为特征值估计问题 [Levin et al. 2008b]。该方法的核心是构建拉普拉斯矩阵 L 来表征图像中每对像素属于同一个分割的可能性。尽管光谱抠图仅使用了低级局部颜色信息来构建矩阵,我们描述了如何通过非局部线索和高级语义信息来增强这一方法。原始的方法也描述了如何利用稀疏化来从 L 的特征值来创建层,我们的研究表明,该原始技术的放宽限制的版本可以获得更佳的结果。图 2 展示了我们的方法的概览。

图 5:输入图像(a)、语义特征(b),与对应本文提出的拉普拉斯矩阵(c,顶行)以及(光谱抠图中使用的)抠图拉普拉斯矩阵(d,底行)的最小特征值的几个特征向量。绿色表示特征向量的正值,红色表示负值。我们的拉普拉斯矩阵很清晰地揭示了特征向量中的语义边界,而抠图拉普拉斯矩阵的特征向量延伸到了语义边界之外,如图虚线框中所示。图源:[Lin et al. 2014]。

图 6:输入图像(a),像素级稀疏化之前的软分割结果(b),像素级稀疏化之后的软分割结果(c)。颜色编码的分割部分使用单个阿尔法通道来展示,阿尔法通道对应前景物体。最后一步清理因特征向量表达能力有限而造成的杂乱阿尔法值,同时维持软过渡。底部示例展示了使用常数 0.9 作为稀疏化参数 γ 的稀疏化结果(d),而我们使用空间变化的 γ_p 在过渡区域进行松弛的稀疏化操作。其效果见嵌套小图,我们的结果(c)保持了头发周围的软过渡,而常数变量(d)导致了过度稀疏的结果。图源:[Lin et al. 2014]。

图 7:输入图像和计算出的语义特征(左),具备很多层的初始估计软分割(中),grouping 后的中间软分割结果(右)。通过为每个分割部分指定一个纯色来可视化软分割结果。注意这些结果会随着松弛的稀疏化(relaxed sparsification)进行进一步细化。图源:[Lin et al. 2014]。

参考地址:https://www.csail.mit.edu/news/ai-cgi

本文为机器之心编译,转载请联系本公众号获得授权。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-08-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
该卸载PhotoShop了!MIT用AI实现3分钟自动抠图,精细到头发丝
最近,MIT计算机科学与人工智能实验室(CSAIL)的研究人员开发了一种AI辅助的图像编辑工具,它可以自动抠图,替换任何图像的背景。
新智元
2018/09/25
8500
该卸载PhotoShop了!MIT用AI实现3分钟自动抠图,精细到头发丝
细粒度图像分割 (FGIS)
如今,照片逼真的编辑需要仔细处理自然场景中经常出现的颜色混合,这些颜色混合通常通过场景或对象颜色的软选择来建模。因此,为了实现高质量的图像编辑和背景合成,精确表示图像区域之间的这些软过渡至关重要。工业中用于生成此类表示的大多数现有技术严重依赖于熟练视觉艺术家的某种用户交互。因此,创建如此准确的显著性选择成为一项昂贵且繁琐的任务. 为了填补熟练视觉艺术家的空白,我们利用计算机视觉来模拟人类视觉系统,该系统具有有效的注意力机制,可以从视觉场景中确定最显着的信息。这类问题也可以解释为前景提取问题,其中显着对象被视为前景类,其余场景为背景类。计算机视觉和深度学习旨在通过一些选择性研究分支对这种机制进行建模,即图像抠图、显著目标检测、注视检测和软分割。值得注意的是,与计算机视觉不同,深度学习主要是一种数据密集型研究方法。
小白学视觉
2022/02/12
4510
细粒度图像分割 (FGIS)
MIT语义软分割实现精细“抠图”,有助于打造逼真的电影特效
随着电影越来越注重CGI,电影制作人必须越来越擅长“合成”,即合并前景和背景图像,例如将演员放置在飞机或行星的顶部,或者放入《黑豹》的Wakanda这样的虚构世界。
AiTechYun
2018/09/26
1K0
MIT语义软分割实现精细“抠图”,有助于打造逼真的电影特效
图卷积网络介绍及进展【附PPT与视频资料】
图是现实世界中一类重要的数据结构,社交网络、通讯网络、交通网络、蛋白质作用网络等都可以由图的形式表达。图的生成与分类、社区发现、节点分类等任务也有着广泛应用。近几年图卷积神经网络把深度学习中卷积神经网络的思想用到图的学习上,达到了非常好的效果。本文主要介绍图卷积网络的基本概念以及关于它的一些进展。
马上科普尚尚
2020/05/11
1.2K0
图卷积网络介绍及进展【附PPT与视频资料】
12. 泊松图像编辑
我们之前已经学到了从cut-and-paste到多频带融合等图像的合成和融合技术。它们各自都有一些缺点。
HawkWang
2020/04/17
1.1K0
12. 泊松图像编辑
【技术分享】快速迭代聚类
  在分析快速迭代聚类之前,我们先来了解一下谱聚类算法。谱聚类算法是建立在谱图理论的基础上的算法,与传统的聚类算法相比,它能在任意形状的样本空间上聚类且能够收敛到全局最优解。 谱聚类算法的主要思想是将聚类问题转换为无向图的划分问题。
腾讯云TI平台
2019/07/04
9060
【技术分享】快速迭代聚类
无需用户输入,Adobe提出自动生成高质量合成图像新方法
图像合成是指组合不同图像中的部分区域以合成一张新的图像,一个常见的用例是肖像图片的背景替换。为了获得高质量的合成图像,经常需要专业人员手动执行多个编辑步骤,例如图像分割、抠图、前景色彩去污,即使使用复杂的图像编辑工具,这些步骤也是非常耗时的。
机器之心
2020/11/20
6310
无需用户输入,Adobe提出自动生成高质量合成图像新方法
【GNN】一文读懂图卷积GCN
“ 本文的内容包括图卷积的基础知识以及相关辅助理解的知识点,相信同学们看完后一定能平滑上手理解GCN!”
zenRRan
2019/12/26
3.7K0
【GNN】一文读懂图卷积GCN
【GCN】万字长文带你入门 GCN
断断续续写了一个多星期,期间找了很多同学讨论学习,感谢指导过点拨过我的同学们,为了精益求精本着不糊弄别人也不糊弄自己的原则在本文中探讨了很多细节。
阿泽 Crz
2020/07/21
5.2K0
【GCN】万字长文带你入门 GCN
体积正则图的逐步社区检测
作者:Luca Becchetti,Emilio Cruciani,Francesco Pasquale,Sara Rizzo
罗大琦
2019/07/18
4780
【GNN】图神经网络综述
本篇文章是对论文“Wu Z , Pan S , Chen F , et al. A Comprehensive Survey on Graph Neural Networks[J]. 2019.“”的翻译与笔记
zenRRan
2020/02/18
1.8K0
【重磅】Facebook AI 负责人:深度学习技术趋势报告(150 PPT 全文翻译及下载)
Yann LeCun 是卷积神经网络的发明人,Facebook 人工智能研究院的负责人。下文的 150 张 PPT,是 LeCun 对深度学习领域的全面而细致的思考。LeCun 非常坚定看好无监督学习,认为无监督学习是能够提供足够信息去训练数以十亿计的神经网络的唯一学习形式。 但 LeCun 也认为,这要做好非常难,毕竟世界是不可理解的。我们来看看 LeCun 在这 150 张 PPT 中,究竟给我们带来什么样的惊喜。 Yann LeCun:150 PPT 全文 如需下载全文,请在新智元订阅号回复 03
新智元
2018/03/20
1.3K0
【重磅】Facebook AI 负责人:深度学习技术趋势报告(150 PPT 全文翻译及下载)
手把手解释实现频谱图卷积
图1:左边的傅里叶基(DFT矩阵),其中每列或每行是基向量,重新整合成28×28(如右边所示),即右边显示20个基向量。傅里叶基利用计算频谱卷积进行信号处理。如图所示,本文采用的正是拉普拉斯基方法。
AI科技评论
2019/09/12
1.5K0
手把手解释实现频谱图卷积
论文 | 半监督学习下的高维图构建
磐创AI 专注分享原创AI技术文章 翻译 | 荔枝boy 编辑 | 磐石 出品 | 磐创AI技术团队 【磐创AI导读】:本文主要介绍了半监督下的高纬图重建。欢迎大家点击上方蓝字关注我们的公众号:磐创AI。 目录 一.简述 二.介绍 三.概述 四.总结 一.简述 本次翻译一篇Liu Wei的一篇论文,之前介绍谱聚类的时候大家都知道,用谱聚类对样本进行分割,大概的流程就是先将原始数据通过不同的规则构建出相似度矩阵,然后再用相似度矩阵表示拉普拉斯矩阵,再对拉普拉斯矩阵进行特征分解,
磐创AI
2018/07/03
7390
详解谱聚类原理
作者 | 荔枝boy 编辑 | 磐石 出品 | 磐创AI技术团队 【磐创AI导读】:本文详细介绍了谱聚类的原理。欢迎大家点击上方蓝字关注我们的公众号:磐创AI。 目录 一. 拉普拉斯矩阵性质 二.拉普拉斯矩阵与图分割的联系 三.Ratiocut 四.总结 一.拉普拉斯矩阵性质 这篇文章可能会有些枯燥,着重分享了谱聚类的原理中的一些思想,以及自己本人对谱聚类的一些理解。如果在看完这篇文章后,也能解决你对谱聚类的一些疑问,想必是对你我都是极好的。在之前查阅了很多关于谱聚类的资料,
磐创AI
2018/07/03
1.3K0
无需用户输入,Adobe提出自动生成高质量合成图像新方法
图像合成是指组合不同图像中的部分区域以合成一张新的图像,一个常见的用例是肖像图片的背景替换。为了获得高质量的合成图像,经常需要专业人员手动执行多个编辑步骤,例如图像分割、抠图、前景色彩去污,即使使用复杂的图像编辑工具,这些步骤也是非常耗时的。
代码医生工作室
2020/11/20
4540
无需用户输入,Adobe提出自动生成高质量合成图像新方法
流形学习概述
同时在本微信公众号中,回复“SIGAI”+日期,如“SIGAI0515”,即可获取本期文章的全文下载地址(仅供个人学习使用,未经允许,不得用于商业目的)。
SIGAI学习与实践平台
2018/08/07
6990
流形学习概述
腾讯提出自适应图卷积神经网络,接受不同图结构和规模的数据
选自arXiv 作者:Ruoyu Li等 机器之心编译 参与:路雪 近日,AAAI 2018 发布接收论文列表,腾讯 AI Lab 共入选 11 篇。在论文《Adaptive Graph Convolutional Neural Networks》中,腾讯联合德克萨斯大学阿灵顿分校提出自适应图卷积神经网络 AGCN,可接受任意图结构和规模的图作为输入。 论文:自适应图卷积神经网络(Adaptive Graph Convolutional Neural Networks) 论文链接:https://arxiv
企鹅号小编
2018/02/05
1K0
腾讯提出自适应图卷积神经网络,接受不同图结构和规模的数据
流形学习概述
在很多应用中,数据的维数会很高。以图像数据为例,我们要识别32x32的手写数字图像,如果将像素按行或者列拼接起来形成向量,这个向量的维数是1024。高维的数据不仅给机器学习算法带来挑战,而且导致计算量大,此外还会面临维数灾难的问题(这一问题可以直观的理解成特征向量维数越高,机器学习算法的精度反而会降低)。人所能直观看到和理解的空间最多是3维的,为了数据的可视化,我们也需要将数据投影到低维空间中,因此就需要有数据降维这种算法来完成此任务。
SIGAI学习与实践平台
2018/07/23
1.4K0
流形学习概述
谱聚类算法(Spectral Clustering)
谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目的。其中的最优是指最优目标函数不同,可以是割边最小分割——如图1的Smallest cut(如后文的Min cut), 也可以是分割规模差不多且割边最小的分割——如图1的Best cut(如后文的Normalized cut)。
AIHGF
2019/02/18
1.8K0
推荐阅读
相关推荐
该卸载PhotoShop了!MIT用AI实现3分钟自动抠图,精细到头发丝
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档