Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ICCV中国团队入选论文:首个提出视觉相关关系判别网络构建更高语义价值的数据集

ICCV中国团队入选论文:首个提出视觉相关关系判别网络构建更高语义价值的数据集

作者头像
代码医生工作室
发布于 2019-11-29 05:34:34
发布于 2019-11-29 05:34:34
5680
举报
文章被收录于专栏:相约机器人相约机器人


新智元报道

来源:新智元投稿

编辑:元子

【新智元导读】本文提出视觉相关的对象关系在语义理解上有更高的价值。在视觉关系学习表达中,我们需要关注于视觉相关关系,而避免对于视觉无关的信息学习。由于现有数据中存在大量的非视觉的先验信息,方法上很容易学到简单的位置关系或单一固定关系,而不具备进一步推测学习语义信息的能力。从而导致现有关系数据的表征并不能明显提升语义相关任务性能。

本文提出视觉相关的对象关系在语义理解上有更高的价值。在视觉关系学习表达中,我们需要关注于视觉相关关系,而避免对于视觉无关的信息学习。

由于现有数据中存在大量的非视觉的先验信息,方法上很容易学到简单的位置关系或单一固定关系,而不具备进一步推测学习语义信息的能力。从而导致现有关系数据的表征并不能明显提升语义相关任务性能。

而本文提出明确了视觉关系学习中什么是值得学习的,什么是需要学习的。并且通过实验,也验证了所提出的视觉相关关系数据可以有效的提升特征的语义理解能力。

数据及项目网站:

http://vrr-vg.com/

论文:

http://openaccess.thecvf.com/content_ICCV_2019/papers/Liang_VrR-VG_Refocusing_Visually-Relevant_Relationships_ICCV_2019_paper.pdf

原理解释

计算机视觉的研究中,感知任务(如分类、检测、分割等)旨在准确表示单个物体对象信息;认知任务(如看图说话、问答系统等)旨在深入理解整体场景的语义信息。而从单个物体对象到整体场景,视觉关系表征两个物体之间的交互,连接多个物体构成整体场景。关系数据可以作为物体感知任务和语义认知任务之间的桥梁和纽带,具有很高的研究价值。

考虑到关系数据在语义上的这种纽带的作用,对象关系数据应当有效的推进计算机视觉方法对于场景语义理解上的能力。构建从单物体感知,到关系语义理解,到整体场景认知,由微观到宏观,由局部到整体的层次化的视觉理解能力。

但现有关系数据中,由于大量先验偏置信息的存在,导致关系数据的特征并不能有效的利用在语义理解中。其中,位置关系如``on'', ``at''等将关系的推理退化为对象检测任务,而单一固定的关系,如``wear'',``has''等,由于数据中主体客体组合搭配固定,此类关系将关系推理退化为简单演绎推理。

因此这些关系数据的大量存在,导致关系特征的学习更多倾向于对单物体感知,而非真正的对场景语义的理解,从而无法使关系数据发挥作用。同时,这种语义上的、学习上的先验偏置,无法通过常规的基于频率或规则的方法筛选剔除,这导致上述数据端的问题阻碍了关系语义理解上的发展与研究,使得视觉对象关系的研究与语义理解的目标渐行渐远。

本文首先提出视觉相关假设和视觉相关关系判别网络来构建具有更高语义价值的数据集。我们认为,许多关系数据不需要理解图像,仅仅通过单物体感知上的标签信息(如bounding box, class)就可以推断的是关系学习中应避免的,即非视觉相关关系。而在关系数据中,对于视觉相关关系的学习与理解,将逼迫网络通过图像上的视觉信息,推理得到关系语义信息,而不是依赖基于单物体感知的能力,拟合先验偏置的标签。

在我们的方法中,我们设计了一个视觉相关判别网络,通过网络自主的学习,分辨那些仅通过一些标签信息即可推断的非视觉相关关系,从而保证数据中留存的都是具有高语义价值的视觉相关关系。此外,我们设计了一个考虑关系的联合训练方法,有效的学习关系标签的信息。

在实验中,我们从两个方面验证了我们的想法。关系表征学习中,在场景图生成任务上,我们的视觉相关关系有效的拉大了学习型方法与非学习型方法之间的性能差距,由此证明了非视觉关系是关系数据中的先验偏置且通过简单方法即可推断。另一方面,通过学习视觉相关关系,我们得到的特征具有更好的语义表达与理解能力。

该特征也在问答系统、看图说话中展现出更好的性能,由此证明了视觉相关关系是真正需要被学习,且更有利于提升语义理解能力。

实验方法

视觉相关判别网络(VD-Net)

提出的VD-Net用于分辨对象关系是否视觉相关。网络仅需要物体对象的位置信息bounding box和类别信息class,并将两种信息做编码输入,而不考虑图像信息。具体输入如下:

位置编码:

其中含有物体中心点、宽高、位置关系信息、尺寸信息等。

针对类别信息,我们使用类别标签的glove 特征向量作为输入。

网络设置如下:

为了避免过拟合,网络设计需要尽可能的小。网络包含4个全连接层,其中,,分别是主体、客体的位置编码及二者联合位置编码。,分别是主体、客体对象的类别词向量。

通过VD-Net的学习,可以发现现有的数据集中,关系预测具有很高的准确率,在VG150中,37%的标签在VD-Net中有至少50%的准确率。

考虑关系信息的联合特征学习

我们提出的方法如下:

其中,我们使用Faster-RCNN用于特征提取,取自于RPN部分。网络综合的学习位置、类别、属性和关系信息。通过对象关系的信息,进一步拓展特征的语义表征能力。

实验结果

1. 场景图生成实验:

Freqency-Baseline是非学习型方法,基于对数据的统计。在我们的实验中,VrR-VG明显的拉开了非学习方法与可学习方法之间的性能差距。更加凸显出场景图生成任务中,各个方法的真实性能。同时,实验也说明非视觉相关的关系比较容易。相对来说,在含有大量非视觉关系的情况下,网络学习到的内容和基于统计的非学习型方法直接推断的内容差距有限。

2.

在问答系统实验中,通过学习视觉相关关系,特征具有更好的性能,在指标上有明显的提升。

在具体的案例分析上,通过学习视觉相关关系,特征能够提供更多的语义信息。一些通过单物体信息无法正确回答的问题,在我们的方法下有明显的效果。

3.

在看图说话的任务中,通过学习视觉相关关系,任务的性能也有提升。

通过对生成的句子案例分析,我们可以发现,我们的方法给出了一些具有鲜明语义关系的句子。有时句子整体会有更加鲜活的表达,内涵更加丰富的交互信息。

结论

在对象关系的学习与应用中,我们需要关注视觉相关关系的学习。现有关系数据不能有效的利用在语义相关的任务中,其主要问题是在数据侧而非方法侧。

为了使对象关系应该在语义理解上有更广泛深入的引用,需要首先明晰那些关系需要学习。在解决什么需要学的前提下,才能在如何学习的方法侧走的更远。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-11-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
学界 | CVPR 2017最新论文:使用VTransE网络进行视觉关系检测
选自arxiv.org 机器之心编译 参与:李亚洲、吴攀 知识表示学习的思想(TransE)已经被成功应用于视觉关系提取(Visual Relation Extraction),提交 CVPR 2017 的新论文《Visual Translation Embedding Network for Visual Relation Detection》提出的 VTransE 方法是在这方面所迈出的重要一步。清华大学计算机系助理研究员刘知远对此评论说:「视觉关系和语义关系既有重叠又有互补,未来会有很多有趣的问题值
机器之心
2018/05/07
1.2K0
学界 | CVPR 2017最新论文:使用VTransE网络进行视觉关系检测
CVPR 2019 | 让机器帮你做行测题,UCLA朱松纯团队提出关系和类比视觉推理数据集RAVEN
作者:Chi Zhang, Feng Gao, Baoxiong Jia, Yixin Zhu, Song-Chun Zhu
机器之心
2019/03/19
9170
CVPR 2019 | 让机器帮你做行测题,UCLA朱松纯团队提出关系和类比视觉推理数据集RAVEN
CVPR 2018论文出炉:腾讯AI Lab 21篇入选(附详解)
End-to-End Learning of Motion Representation for Video Understanding
量子位
2018/07/24
6140
NeurIPS 2018亮点选读:深度推理学习中的图网络与关系表征
作者简介:Angulia Yang 毕业于新加坡国立大学,目前从事人工智能相关计算机视觉 (Computer Vision) 的研究与开发工作,主要工作方向集中为迁移学习与语义分割,近期对强化学习与生成模型进展也有持续关注。在工程师的角色之外,我也是机器之心的一枚业余分析师与撰稿人,对编程技术与计算机视觉前沿工作保持时刻关注,通过文字与大家分享我对前沿工作的剖析和新技术的理解,并从中收获启发与灵感。一直相信 AI 技术的产生与发展不是壁垒与掠夺,而是互助与分享,AI For The Greater Goods of Everyone。
机器之心
2018/12/18
1.7K0
纽约大学联合谷歌大脑提出「COG」数据集,可提高系统的「视觉推理」能力
【新智元导读】在认知心理学和神经科学中丰富的视觉推理和记忆传统的启发下,我们开发了一个人工的、可配置的视觉问题和答案数据集(COG),用于在人类和动物中进行平行实验。COG比视频分析的一般问题要简单得多,但它解决了许多与视觉、逻辑推理和记忆有关的问题——这些问题对现代的深度学习架构来说仍然具有挑战性。 可以这样说,人工智能中一个令人烦恼的问题是对发生在复杂的、不断变化的视觉刺激中的事件进行推理,比如视频分析或游戏。在认知心理学和神经科学中丰富的视觉推理和记忆传统的启发下,我们开发了一个人工的、可配置
新智元
2018/03/22
9320
纽约大学联合谷歌大脑提出「COG」数据集,可提高系统的「视觉推理」能力
学界 | DeepMind提出关系性深度强化学习:在星际争霸2任务中获得最优水平
在星际争霸 II 学习环境中,DeepMind 的智能体在六个小游戏中达到了当前最优水平,且在四个游戏中的表现超越了大师级人类玩家。这种新型强化学习可以通过结构化感知和关系推理提高常规方法的效率、泛化能力和可解释性。
IT派
2018/08/10
3780
学界 | DeepMind提出关系性深度强化学习:在星际争霸2任务中获得最优水平
北交桑基韬:“超”人的机器学习,非语义特征的得与失
作者 | 桑基韬 整理 | 维克多 人工智能目前最大的“拦路虎”是不可信赖性,以深度学习为基础的算法,在实验室环境下可以达到甚至超过人类的水平,但在很多实际应用场景下的性能无法保证,而且存在对抗鲁棒性、解释性、公平性等问题。 4月8日,在AI TIME青年科学家——AI 2000学者专场论坛上,北京交通大学计算机科学系教授、系主任桑基韬在报告《“超”人的机器学习:非语义特征的得与失》中,从两类虚假相关性角度解释了这种现象: 机器学习其实不管是目标,还是学习方式,都是类人的,是对人的知识蒸馏。这种知识蒸馏会出
AI科技评论
2022/05/05
4480
北交桑基韬:“超”人的机器学习,非语义特征的得与失
机器人视觉听觉融合的感知操作系统
摘要:智能机器人面对复杂环境的操作能力一直是机器人应用领域研究的前沿问题,指称表达是人类对指定对象定位通用的表述方式,因此这种方式常被利用到机器人的交互当中,但是单一视觉模态并不足以满足现实世界中的所有任务。因此本文构建了一种基于视觉和听觉融合的机器人感知操作系统,该系统利用深度学习算法的模型实现了机器人的视觉感知和听觉感知,捕获自然语言操作指令和场景信息用于机器人的视觉定位,并为此收集了12类的声音信号数据用于音频识别。实验结果表明:该系统集成在UR机器人上有良好的视觉定位和音频预测能力,并最终实现了基于指令的视听操作任务,且验证了视听数据优于单一模态数据的表达能力。
一点人工一点智能
2023/04/10
7850
机器人视觉听觉融合的感知操作系统
CVPR 2023 | 浙大&南洋理工提出PADing:零样本通用分割框架
作者丨PaperWeekly编辑部 来源丨PaperWeekly 编辑丨AiCharm
AiCharm
2023/07/26
3370
CVPR 2023 | 浙大&南洋理工提出PADing:零样本通用分割框架
Lexicon3D: 探索复杂3D场景理解的视觉基础模型 !
近年来,复杂的3D场景理解成为计算机视觉的一个重要领域,涵盖了诸如场景生成、推理和交互。利用大规模视觉基础模型,方法如[42; 64; 68; 84; 91]已经取得了有前途的结果,从而使一系列实际应用得以实现,从自动驾驶,机器人学[57; 108],到多模态代理[1; 78]。尽管有许多研究[6; 67; 99]提供了关于视觉基础模型在2D图像任务的使用的指导,但3D场景的战略仍然不清楚。对复杂实际场景的系统化理解不仅包括语义和深度意识[6],这可以在2D领域进行评估,还包括几何意识和对多模态信息进行推理和定位任务的能力。为了填补这一空白,作者的工作评估了不同类型的视觉基础模型对复杂场景理解的适用性,并寻求确定每种模型在不同场景中的优势和局限。最终,这项研究旨在为场景理解系统的更有效性、高效性的发展做出贡献。
AIGC 先锋科技
2024/09/13
3280
Lexicon3D: 探索复杂3D场景理解的视觉基础模型 !
商汤及联合实验室入选论文重点解读 | ECCV 2018
9月8日-14日,备受瞩目的2018欧洲计算机视觉大会(ECCV 2018)在德国慕尼黑召开, ECCV两年举办一次,与CVPR、ICCV共称为计算机视觉领域三大顶级学术会议,每年录用论文约300篇。
量子位
2018/09/29
5100
商汤及联合实验室入选论文重点解读 | ECCV 2018
关于计算机视觉的那些论文 | CCF推荐论文导读
Quality Evaluation for Image Retargeting With Instance Semantics
AI科技评论
2021/10/22
9420
Nature子刊:先天盲人视觉概念的神经表征
请点击上面“思影科技”四个字,选择关注作者,思影科技专注于脑影像数据处理,涵盖(fMRI,结构像,DTI,ASL,EEG/ERP,FNIRS,眼动)等,希望专业的内容可以给关注者带来帮助,欢迎留言讨论,也欢迎参加思影科技的其他课程。(文末点击浏览)
用户1279583
2019/11/27
1.4K0
Nature子刊:先天盲人视觉概念的神经表征
ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet,优化场景理解
论文名称:《Unified Perceptual Parsing for Scene Understanding》
机器之心
2018/09/20
1.9K0
ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet,优化场景理解
卷积网络又双叒叕行了?OverLoCK:一种仿生的卷积神经网络视觉基础模型
当面对复杂场景时,我们往往先快速获得整体印象,再聚焦关键细节。这种「纵观全局 - 聚焦细节(Overview-first-Look-Closely-next)」的双阶段认知机制是人类视觉系统强大的主要原因之一,也被称为 Top-down Attention。
机器之心
2025/03/31
1230
卷积网络又双叒叕行了?OverLoCK:一种仿生的卷积神经网络视觉基础模型
有望替代卷积神经网络?微软最新研究提基于关系网络的视觉建模
导语:最近两年,自注意力机制、图和关系网络等模型在NLP领域刮起了一阵旋风,基于这些模型的Transformer、BERT、MASS等框架已逐渐成为NLP的主流方法。这些模型在计算机视觉领域是否能同样有用呢?近日,微软亚洲研究院视觉计算组主管研究员胡瀚受邀参加VALSE Webinar,分享了他们最近的一些相关工作。他们的研究以及同期的一些其它工作表明这些模型也能广泛地用于视觉基本元素之间关系的建模,包括物体与物体间、物体与像素间、以及像素与像素间的关系,特别是在建模像素与像素间关系上,既能与卷积操作形成互补,甚至有望能取代卷积操作,实现最基本的图像特征提取。
AI科技大本营
2019/07/19
5710
有望替代卷积神经网络?微软最新研究提基于关系网络的视觉建模
ICCV 2021 | 腾讯优图17篇论文入选,含跨模态检索与分割、车辆识别、视频理解等领域
计算机视觉世界三大顶会之一的ICCV 2021论文接收结果出炉!本次大会收到来自全球共6236篇有效投稿,最终有1617篇突出重围被录取,录用率约为25.9%。此次ICCV 2021接收的论文分为检测、分割、跟踪、视觉定位、底层图像处理、图像视频检索、三维视觉等多个方向。本次腾讯优图实验室共有17篇论文被收录,其中Oral论文2篇,涵盖跨模态检索、分割、行人识别、神经网络、人群计数、车辆识别、物体识别、视频偏好推理、多标签识别等前沿领域。
优图实验室
2021/08/02
1.1K0
ICCV 2021 | 腾讯优图17篇论文入选,含跨模态检索与分割、车辆识别、视频理解等领域
腾讯AI大迈步!58篇论文入选CVPR 2019,超去往年总和
今年CVPR入选论文已公布,全球共有5165篇投稿,1299篇收录,同比去年增长32%(2017年论文录取979篇)。
量子位
2019/04/23
9330
腾讯AI大迈步!58篇论文入选CVPR 2019,超去往年总和
动态 | HCP Lab 12篇论文入选世界顶级计算机视觉会议CVPR 2019
全球计算机视觉三大顶会之一 CVPR 2019 (IEEE Conference on Computer Visionand Pattern Recognition) 于 6月 16~20日 在美国洛杉矶如期举办。
AI科技评论
2019/07/05
6710
动态 | HCP Lab 12篇论文入选世界顶级计算机视觉会议CVPR 2019
智源独家丨谢赛宁:AI是否需要更强的视觉基础来实现理解和意义?
实际上,早在 1990 年,Stevan Harnad 就讨论了符号基础的问题。那时,深度学习还没诞生。人们认为,只有当我们为人类语言或计算机代码赋予某种感知基础,这些符号才有意义。AI 要阻止出现「语义鸿沟」:通常人们在判别图像的相似性时并非建立在图像底层视觉特征的相似上,而是建立在对图像所描述的对象或事件的语义理解的基础上。
脑机接口社区
2024/06/21
2650
智源独家丨谢赛宁:AI是否需要更强的视觉基础来实现理解和意义?
推荐阅读
学界 | CVPR 2017最新论文:使用VTransE网络进行视觉关系检测
1.2K0
CVPR 2019 | 让机器帮你做行测题,UCLA朱松纯团队提出关系和类比视觉推理数据集RAVEN
9170
CVPR 2018论文出炉:腾讯AI Lab 21篇入选(附详解)
6140
NeurIPS 2018亮点选读:深度推理学习中的图网络与关系表征
1.7K0
纽约大学联合谷歌大脑提出「COG」数据集,可提高系统的「视觉推理」能力
9320
学界 | DeepMind提出关系性深度强化学习:在星际争霸2任务中获得最优水平
3780
北交桑基韬:“超”人的机器学习,非语义特征的得与失
4480
机器人视觉听觉融合的感知操作系统
7850
CVPR 2023 | 浙大&南洋理工提出PADing:零样本通用分割框架
3370
Lexicon3D: 探索复杂3D场景理解的视觉基础模型 !
3280
商汤及联合实验室入选论文重点解读 | ECCV 2018
5100
关于计算机视觉的那些论文 | CCF推荐论文导读
9420
Nature子刊:先天盲人视觉概念的神经表征
1.4K0
ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet,优化场景理解
1.9K0
卷积网络又双叒叕行了?OverLoCK:一种仿生的卷积神经网络视觉基础模型
1230
有望替代卷积神经网络?微软最新研究提基于关系网络的视觉建模
5710
ICCV 2021 | 腾讯优图17篇论文入选,含跨模态检索与分割、车辆识别、视频理解等领域
1.1K0
腾讯AI大迈步!58篇论文入选CVPR 2019,超去往年总和
9330
动态 | HCP Lab 12篇论文入选世界顶级计算机视觉会议CVPR 2019
6710
智源独家丨谢赛宁:AI是否需要更强的视觉基础来实现理解和意义?
2650
相关推荐
学界 | CVPR 2017最新论文:使用VTransE网络进行视觉关系检测
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档