首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ASM-Net:可解释的美学评分及图像剪裁

ASM-Net:可解释的美学评分及图像剪裁

作者头像
AI科技评论
发布于 2019-12-05 06:12:59
发布于 2019-12-05 06:12:59
1.9K0
举报
文章被收录于专栏:AI科技评论AI科技评论

作者 | 涂逸

编辑 | 唐里

基于美学的图像裁剪(aesthetic image cropping)的目标是在一张图片中找到具有最高美学评价的子图。

在本篇论文中,我们提出了一个新颖的图像裁剪模型来解决这个问题。对于每张图片,我们使用一个全卷积网络来生成一个同时对照片构图(photo composition)和物体显著性(object saliency)敏感的美学评分图(aesthetic score map),并让其所有候选子图都使用其进行美学评分。

该美学评分图可以用来定位图像中具有较高美学价值的区域,并帮助分析模型所学习到的构图规则。因此,我们的模型可以揭示美学评价的内在机理,具有良好的可解释性。我们在多个数据集上证明了本模型的优越性能,并展示了它的广泛应用场景。

本文已被AAAI20接收(https://arxiv.org/abs/1911.10492)。

模型概述

为了找到最佳子图,图像裁剪模型一般会先生成大量的候选子图,然后对每张子图逐个进行美学评分,最终确定评分最高的子图。因此,一般来说,图像裁剪模型通常由候选子图生成模型和美学评分模型两个部分组成。早期的研究通过利用一些摄影知识来实现美学评分,比如使用人类总结的构图规则,像是三分法和中心法则。它们通过定义并抽取相应的特征来衡量子图的构图优劣。

随着深度学习技术的发展,很多人开始以数据驱动的方式研究这个问题,收集并标注了许多美学数据集来学习人类的审美偏好。他们直接通过深度学习模型来学习并预测美学评分,并取得了不错的进展,但这类方法往往缺乏对美学评分机理的揭示与阐述。

我们认为,一个好的图像裁剪需要两步:首先是选定图片中最重要的内容,然后是把它放在一个构图最优的位置。所以本问题所需的知识可以分为两部分,即对内容的偏好(content preference)和对构图的偏好(composition preference)。因此,一个好的图像裁剪模型应该能够在从标注数据中同时学习这两种知识,并且能够在推荐最佳子图时利用它们。

为此,我们设计出了一个新颖的图像裁剪模型,ASM-Net。给定一张图片,ASM-Net首先会生成一张美学评分图(aesthetic score map)。这张图能够通过池化的方式来对任意子图给出一个对应美学评分。在训练时时,我们将标注过的子图的评分预测排序作为监督信息,用排序损失(ranking loss)训练模型;在测试时,我们对所有候选子图分别计算美学评分,将最高分子图作为最终剪裁结果。此外,我们还利用了视觉显著性(visual saliency)对模型进行了约束,使得它会更关注显著区域的构图效果。

Composition-Aware Aesthetic Score Map

受到Class Activation Map 模型的启发,我们首先使用全卷积网络对每张图片生成一个等大小的美学评分图。我们期望评分图上每一处的分值能够反映图片对应区域的美学重要性,进而能够把子图的平均分当作其美学评分。然而我们发现,因为美学评分问题本身的复杂性,这种设计并不能满足我们的需要。为此,我们需要让美学评分图具有更多的变化,比如对构图敏感。

受摄影构图规则的启发,我们认识到一个被拍摄物体在图片内的相对位置对其图片的美学评分很重要。比如,在中心法则中,我们总是将被拍摄物体放在中心位置,以实现一种对称和平衡的美感。因此,被拍摄物体位于一个子图中心时的美学评分应该大于它偏离中心时的评分。因此,我们认识到图片中每个区域在美学评分图上的审美分数应该随着其在不同子图中的相对位置发生变化。

为了实现这个目标,我们首先预设一些构图模板(composition pattern)。每个构图模板都能够将一个子图划分若干不重叠的相对位置,称之为构图分区(composition partition)。

给定一个构图模板,图片中每个部分的美学评分就要由它在每个子图中的相对位置,即构图分区决定。假设我们有九个构图分区,那么图片中每个部分的美学评分就一共有九种取值,取决于它在不同子图中所处的构图分区是否合适。这样,图片的每个区域不再由单个美学评分而是对构图分区敏感的一组评分表示。因此,我们的模型在学习标注数据的时候,不仅能够学习到图片中每个区域的总体审美偏好,还能够学习到它们出现在不同子图、处在不同构图分区时的审美偏好。

Saliency-Aware Aesthetic Score Map

视觉显著性是一种使物体吸引更多人类注意力的感知特性。一般来说,一张图片中具有较高视觉显著性的区域与图片中最重要的内容有很大的关联。因此,在图像裁剪问题中,我们可以利用视觉显著性来保护最要的重要内容不被剪裁掉。一些以前的方法已经在这个方向上做过一些尝试,它们的假设是:视觉显著性最高的区域或者显著物体(salient object),就是对应着图片中最重要的内容。在这个假设的前提下,它们生成的候选子图都一定会覆盖显著物体,这样最终预测的最佳子图就一定不会裁减掉重要内容。

然而,我们认为这样的假设有几个局限性。首先,许多现实世界的图像,比如一张聚会照片,可能有多个显著的区域,我们不能只关注最显著的一个。其次,一些照片,比如风景照,可能没有任何显著的物体,这可能导致上述方法失效。第三,显著的物体也可能是一个干扰物体,应该排除而不是包含在最优子图中。因此,在我们的方法中,我们采用了一个更合理的假设:图片中的显著区域应该对其构图分区更敏感的。这是因为显著的区域会吸引更多的注意力,所以它们的构图分区更加影响人们对子图的美学评价。为此,为了实现这一假设,我们设计了一种基于显著性损失函数。它通过让我们的模型对显著区域对美学评分更加敏感,使得模型在学习过程中更加关注显著物体应该放在子图的哪个构图分区。

实验与可视化结果

我们的模型在三个基准数据集上做了大量的实验,并使用了多种指标对结果进行了比较。实验我们模型的性能优于最先进的方法,并具有良好的通用性。除了定量结果,我们也提供了大量的可视化结果。

首先我们对比来自训练集中同一张图片的三个不同子图的美学评分。黑色数字表示其的标注评分,红色数字表明了其预测评分。可以看到,子图的预测评分的相对大小关系与标注评分是一致的,这表明了模型通过使用ranking loss学习到了训练数据集中的美学评分偏好。进一步,预测评分下的热力图表明了子图中每个区域的预测评分,而预测评分则是整个热力图的均值。前两个子图中有重叠的区域,然而其预测评分却不一样,这是因为重叠区域在两个子图中的构图分区不一样。第三个图的预测评分很低,这是因为它没有捕捉到整个图片中最显著的物体,信号灯。上述结果表明了我们的模型确实是同时考虑了构图分区和物体显著性的。

其次,我们对三类图片展示最优裁剪结果: 有一个显著的物体、有多个显著物体和没有显著物体。对于每一类,我们展示两张图片在五个长宽比(9:16、3:4、1:1、4:3和16:9)下的最优剪裁结果。在第三类没有显著物体的图片中,之前的基于显著性的方法可能会失效,因为它们依赖于显著物体的检测结果;然而我们的模型仍然可以达到令人满意的结果。这表明了我们模型的泛用性。

最后,我们还发现我们的模型可以用于对任意形状的子图进行美学评分。这里,我们尝试将矩形的图像裁剪任务扩展为圆形的裁剪,因为它有一些实际应用场景,比如生成圆形的用户头像。在上图中,圆形的剪裁结果也表明了我们模型的拓展性,也证明我们的模型学习到了可以在不同形状的子图之间通用的美学评价知识。更多结果可见http://bcmi.sjtu.edu.cn/home/niuli/paper/AIC_Supplementary.pdf。

总结

在本文中,我们提出了一个全新的图像裁剪模型。对于每一张待剪裁图片,我们的模型可以生成一个对构图分区和视觉显著性都很敏感的美学评分图。我们的模型可以学会将重要的的图片内容放在最恰当的子图位置,以剪裁得到美学评分最高的子图。我们的模型在大量实验上证明了其拥有最好的性能,并在实际应用中表现出良好的通用性和拓展性。我们的研究方法也对揭开美学评价的内在机理做出了贡献。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-12-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
业界 | 谷歌「虚拟摄影师」:利用深度学习生成专业级摄影作品
选自Google Research 机器之心编译 参与:Smith 黄小天 机器学习在目标清晰的客观领域取得了超乎想象的效果,比如图像识别和机器翻译;但在主观领域有时并不灵光,比如谷歌在本文中所探讨的摄影审美问题。对此,谷歌通过一个实验性深度学习系统,即其所谓的虚拟摄影师,浏览专业品质的图片集,生成了可与专业摄影师相媲美的「摄影作品」。机器之心对该文及其论文摘要进行了编译。 在很多领域,机器学习目标清晰,成效显著。机器学习训练受益于带有正确答案的任务,算法得以实现其既定目标,比如正确识别图像中的物体,或者两
机器之心
2018/05/09
9600
业界 | 谷歌「虚拟摄影师」:利用深度学习生成专业级摄影作品
​微信图片智能裁剪技术介绍
图片裁剪的目的是自动挖掘图片中最具美观的视图,广泛应用于图片美学构图,例如缩略 图生成[1]、摄影辅助[2]和肖像推荐[3]等。其中,图片缩略图或封面裁剪是新兴的 User Generated Content (UGC) 领域的重要应用。
腾讯技术工程官方号
2024/02/01
6750
​微信图片智能裁剪技术介绍
【震撼】这些专业级摄影作品竟然出自谷歌神经网络之手!
【新智元导读】谷歌研究人员提出利用机器学习学习“主观”概念的新方法,模仿专业摄影师的工作流程,遍览谷歌街景地图并搜索最佳作品,然后进行各种后续的处理,创造出媲美专业摄影师的作品。 机器学习(ML)在许
新智元
2018/03/27
8200
【震撼】这些专业级摄影作品竟然出自谷歌神经网络之手!
干货 | 如何选出最“美”图片展示给你?携程做了基于深度学习的图像美感评分系统
路婵,携程度假AI研发团队算法工程师,专注于计算机视觉和机器学习的研究与应用。现阶段致力于度假图像智能化,多次参加国内外数据竞赛并获奖。
携程技术
2019/04/22
3.2K0
干货 | 如何选出最“美”图片展示给你?携程做了基于深度学习的图像美感评分系统
【技术综述】计算机审美,学的怎么样了?
究竟什么是图像美学质量呢?牛津高阶英语词典将美学定义为:“concerned with beauty and art and the understanding of beautiful things, and made in an artistic way and beautiful to look at.”视觉美学质量是视觉感知美的一种度量。图像的视觉美学质量衡量了在人类眼中一幅图像的视觉吸引力。由于视觉美学是一个主观的属性,往往会涉及情感和个人品味,这使得自动评估图像美学质量是一项非常主观的任务。然而,人们往往会达成一种共识,即一些图像在视觉上比其他图像更有吸引力,这是新兴研究领域——可计算美学的原理之一。计算美学探索如何用可计算技术来预测人类对视觉刺激产生的情绪反应,使计算机模仿人类的审美过程,从而用可计算方法来自动预测图像的美学质量。
用户1508658
2019/07/25
1.3K0
【技术综述】计算机审美,学的怎么样了?
基于显著性的感知视频编码
显著性是某些事物突出的特性。对于图片来说,当图片的内容不是很复杂时,显著性区域可以比较容易的划分出来。一般来说,在图片中存在运动物体、前景物体、以及不相关的物体时,会导致显著性检测的结果更容易出现问题。
用户1324186
2022/02/18
1.4K0
基于显著性的感知视频编码
【技术综述】深度学习自动构图研究报告
今天带来基于深度学习的图像构图的研究报告,主要涉及了基于CNN的图像剪裁方法的研究现状、数据集的发展、以及现有应用。
用户1508658
2019/07/25
1K0
【技术综述】深度学习自动构图研究报告
【计算摄影】计算机如何学会欣赏照片的美感?
大家好,这是专栏《计算摄影》的第二篇文章,这一个专栏来自于计算机科学与摄影艺术的交叉学科。今天我们讨论的问题是图像美学评估问题。
用户1508658
2020/09/22
2.1K0
【计算摄影】计算机如何学会欣赏照片的美感?
3D电影化照片背后的技术揭秘
回看过去的照片可以帮助人们重温一些最难忘的时刻。去年12月,我们发布了电影照片(Cinematic Photos),这是谷歌照片(Google Photos)的一个新功能,旨在重新体验照片拍摄时的沉浸感,通过推断图像中的 3D 表示模拟相机的运动和视差。在这篇文章中,我们来看看这个过程背后的技术,并演示电影照片是如何将一张来自过去的 2D 照片转换成更为身临其境的 3D 动画的。
McGL
2021/03/15
8900
突破高分辨率图像推理瓶颈,复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO
本文的主要作者来自复旦大学和南洋理工大学 S-Lab,研究方向聚焦于视觉推理与强化学习优化。
机器之心
2025/07/24
1080
突破高分辨率图像推理瓶颈,复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO
智能VS美学指南2.0:美学技术、通用美学语言
这篇文章在草稿箱里待了很久了,断断续续,有了一点灵感就写一点,代表着我对「人工智能」VS「美学」的 一些思考,今天整理成文,分享给大家~
mixlab
2020/06/24
7710
智能VS美学指南2.0:美学技术、通用美学语言
拍照技术烂?实时在线AI构图模型V**,让你变身摄影大神!
简介:中国科学院软件研究所在读硕士二年级,研究方向为智能人机交互方法及其在医疗、教育等领域的应用,热衷于 AI 与 HCI 的互相结合。目前正在准备申请人机交互方向的 Phd。
AI科技大本营
2019/06/20
3.1K0
拍照技术烂?实时在线AI构图模型V**,让你变身摄影大神!
【知识星球】颜值,自拍,美学三大任务简介和数据集下载
欢迎大家来到《知识星球》专栏,今天给大家介绍三个任务,提供三个美学相关的数据集的下载,其中两个和人像有关,一个和通用的美学任务有关,下载可以进入知识星球自取,相关的项目,我们以后会在知识星球中进行研究和讨论。
用户1508658
2019/07/27
1.3K0
专栏 | MSRA视觉计算组提出第二代可变形卷积网络,增强形变,更好效果
为了有效地利用这一更强的形变建模能力,研究员们提出了一种利用更精细的驱动力量来引导网络学习的方法,具体来说,考虑到 R-CNN 框架在进行候选框特征提取时能排除无关背景的干扰,在网络训练过程中通过额外引入要求网络特征模仿 R-CNN 特征的损失函数,使得所学习到的形变更专注在前景物体上。通过引入以上更强的建模能力和更优的训练策略,新一代可变形卷积网络在多个主流的识别任务上取得了相比于第一代可变形卷积网络好得多的性能。
机器之心
2018/12/21
7110
专栏 | MSRA视觉计算组提出第二代可变形卷积网络,增强形变,更好效果
破解「反AI」情绪!德国马普所揭秘:人类更喜欢自我定制AI艺术
自去年DALL-E 2, Stable Diffusion, Midjourney等高质量AI绘画工具发布以来,关于「AI艺术家」的争论一直都没停过,比如AI作品是否能参加比赛、模型的训练侵犯版权、辛苦学习的画师沦为语料库等诸多问题。
新智元
2023/09/09
1760
破解「反AI」情绪!德国马普所揭秘:人类更喜欢自我定制AI艺术
谷歌AI新升级,装备审美功能给照片评分
腾讯数码讯(邱明慧)情人眼里出西施,对于我们这些平凡的用户来讲,这句话往往是正确的。总有人偏爱自己的拍摄出的图片,因为其中有自己的爱人、宠物和见闻。但往往拍摄某一个瞬间时,连摄几十张都是很常见的,在10张相对相似的照片中,要挑选出相对更优秀的摄影作品的时候,这往往就让人感到头疼了。 可是挑选时都在考虑这些什么?有很多种因素的存在,很多人判断留下的照片通常是没有模糊或者噪音,光线更好或者偶然抓拍了小美好。即使我们没有意识到,但事实上在挑选照片的时候,大脑往往会在技术质量和审美偏好中徘徊。也就是说,业余的摄
企鹅号小编
2018/01/17
9880
谷歌AI新升级,装备审美功能给照片评分
多图文帖智能封面提取方案
导语 一个帖子在用户点进去观看之前,能被用户捕捉到的信息只有封面缩略图、标题、作者等少量信息,这些因素直接决定了用户是否愿意点击该帖。一个好的封面能明显提高用户的点击欲,而对于不少UGC内容的帖子,用户也不会去指定封面,这时智能提取封面就显得尤为重要。 对于资讯类App,从文章的配图中选择1-3张图片并裁剪出适合区域作为封面,是一种很常见的场景。这里会涉及到两个问题:如何从多张图片中选择质量较高的前几张图作为封面?挑选出来的图片宽高比可能与封面要求的比例不符,如何从图中裁剪出适合的区域呈现给用户? 本
腾讯技术工程官方号
2019/07/30
1.7K0
多图文帖智能封面提取方案
图像质量评估-NIMA(Neural Image Assessment)「建议收藏」
图像质量和美学的量化一直是图像处理和计算机视觉长期存在的问题。技术质量评估测量的是图像在像素级别的损坏,例如噪声、模糊、人为压缩等等,而对艺术的评估是为了捕捉图像中的情感和美丽在语义级别的特征。
全栈程序员站长
2022/07/22
5.4K0
图像质量评估-NIMA(Neural Image Assessment)「建议收藏」
真·抓住用户「眼球」:无需专用硬件,谷歌教你用「注意力」提升产品体验|CVPR 2023
人每时每刻都在接收海量的信息,例如每秒进入视网膜的数据量就达到了10的10次方比特,但人类会选择性地关注一些任务相关或感兴趣的区域以进一步处理,比如记忆、理解和采取行动等。
新智元
2023/08/07
2220
真·抓住用户「眼球」:无需专用硬件,谷歌教你用「注意力」提升产品体验|CVPR 2023
轻松生产短视频——腾讯多媒体实验室横屏转竖屏技术
腾讯多媒体技术专栏 伴随手机等智能设备的广泛使用以及短视频平台的兴起,越来越多的“竖屏”视频开始占据人们的视野。目前,许多“竖屏”视频仍是由16:9等宽高比的“横屏”视频剪辑而成,然而传统的静态裁剪和补充黑边等视频宽高比转换算法已经不能满足用户对横屏到竖屏的内容转换需求。对此,多媒体实验室“智媒”平台提出了一种基于显著性的视频裁剪方法,它可以根据视频的内容实现横屏到竖屏的自动裁剪。与竞品相比,本文方法可以获得更智能、更稳定的裁剪结果。 1、背景 1.1背景介绍 快速发展的智能传感器和多媒体技术让人们
腾讯多媒体实验室
2021/03/01
2.8K0
推荐阅读
业界 | 谷歌「虚拟摄影师」:利用深度学习生成专业级摄影作品
9600
​微信图片智能裁剪技术介绍
6750
【震撼】这些专业级摄影作品竟然出自谷歌神经网络之手!
8200
干货 | 如何选出最“美”图片展示给你?携程做了基于深度学习的图像美感评分系统
3.2K0
【技术综述】计算机审美,学的怎么样了?
1.3K0
基于显著性的感知视频编码
1.4K0
【技术综述】深度学习自动构图研究报告
1K0
【计算摄影】计算机如何学会欣赏照片的美感?
2.1K0
3D电影化照片背后的技术揭秘
8900
突破高分辨率图像推理瓶颈,复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO
1080
智能VS美学指南2.0:美学技术、通用美学语言
7710
拍照技术烂?实时在线AI构图模型V**,让你变身摄影大神!
3.1K0
【知识星球】颜值,自拍,美学三大任务简介和数据集下载
1.3K0
专栏 | MSRA视觉计算组提出第二代可变形卷积网络,增强形变,更好效果
7110
破解「反AI」情绪!德国马普所揭秘:人类更喜欢自我定制AI艺术
1760
谷歌AI新升级,装备审美功能给照片评分
9880
多图文帖智能封面提取方案
1.7K0
图像质量评估-NIMA(Neural Image Assessment)「建议收藏」
5.4K0
真·抓住用户「眼球」:无需专用硬件,谷歌教你用「注意力」提升产品体验|CVPR 2023
2220
轻松生产短视频——腾讯多媒体实验室横屏转竖屏技术
2.8K0
相关推荐
业界 | 谷歌「虚拟摄影师」:利用深度学习生成专业级摄影作品
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档