首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR 2020 | 视觉-语言导航新篇章:真实场景下的远程物体定位导航任务

CVPR 2020 | 视觉-语言导航新篇章:真实场景下的远程物体定位导航任务

作者头像
AI科技评论
发布于 2020-03-20 02:37:24
发布于 2020-03-20 02:37:24
1.8K0
举报
文章被收录于专栏:AI科技评论AI科技评论

本文介绍的是CVPR 2020上录用为Oral的论文《REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments》(已开源),这篇论文是由澳大利亚阿德莱德大学吴琦老师V3A课题组的博士后齐元凯,与佐治亚理工,加州大学圣塔芭芭拉分校合作完成。

文 | 齐元凯

编 | 贾 伟

论文地址:https://arxiv.org/abs/1904.10151

数据代码地址: https://github.com/YuankaiQi/REVERIE

1 动 机

一个10岁的儿童有很大可能完成“给我拿个抱枕”这样的命令,即使是在一个陌生的环境中。然而,机器人完成这样的任务却十分困难,因为机器人还不能像人那样从熟悉的环境中学习大量的知识并加以运用,比如抱枕通常在沙发上,沙发通常在起居室,而起居室通常通过走廊和其他房间相连。此外,人类还可以理解指令,并将他们与视觉感知关联起来。

为了让机器人具有这样的能力,更灵活、准确地与人类交互,促进真实环境下视觉-语言相关的研究,我们提出了远程物体定位任务 REVERIE:Remote Embodied Visual referring Expression in Real Indoor Environments.

图 1 REVERIE任务示例

图1给出了该任务的一个示例,机器人被随机放置在一个位置,然后给予一个与远处物体相关的指令,如‘Bring me the bottom picture that is next to the top of stairs on level one’,机器人需要根据该指令和感知的视觉图像,找到该指令所指定的目标物体。值得注意的是,

1)目标物体在起点是无法被观测到的,这意味着机器人必须具有常识和推理能力以到达目标可能出现的位置。

2)在当前阶段,我们仅要求机器人找到目标物体(如给出目标物体在视觉感知图像中的边框,或者在一系列候选物体中选出目标物体),因为即使看似如此简单的任务已经充满挑战性。

与其他的基于视觉和语言的任务不同,如Vision-and-Language Navigation (VLN)[1]、Embodied Question Answering (EQA)[2],REVERIE衡量任务完成情况主要根据是否找到了目标物体,而VLN则是根据是否到达了目的地点,EQA根据是否回答了问题。因此,REVERIE更加清晰地反映了机器人需要理解语言、逻辑推理、图像物体定位等能力的必要性。

此外,REVERIE中简洁的语言指令充分模拟了真实世界中人类使用家政机器人的场景。这些简洁的指令也使得REVERIE任务与使用详细繁杂导航指令VLN任务[1]区分开来,并将推进高层次视觉-语言推理的研究和机器人的广泛应用。相对Referring Expression任务[3]来讲,REVERIE任务更加复杂,抛开REVERIE任务需要首先导航到正确位置,即便机器人到达了正确的地点,它仍需要环顾四周,从全景图像的所有物体中找到与语言描述一致的目标物体,而Referring Expression只需要在一张图像中找出文字语言所描述的物体。

我们收集的REVERIE数据集建立在Matterport3D数据集[4]及其R2R仿真器[1]的基础之上,二者提供了从真实世界采集的室内全景图像以及可导航点的联通图。为了提供物体级别的信息,我们扩展了R2R仿真器,使其可以提供物体在不同观测点的边框。REVERIE数据集总共21,702条人工标注的自然语言指令,平均长度18个单词,涉及了86个建筑的10,318个位置的全景图像,涵盖了4,140个目标物体。表1展示了若干收集的指令示例,包含了丰富的语言现象,如高度抽象概括(例1中的fishing theme)、物体间的空间关系(例3)、疑问句式(例6)、祈使句(例9)、指代关系(例10)等。

表 1 REVERIE自然语言指令示例

为了调研该任务的难度,我们尝试将前沿的导航算法和图片物体定位算法结合起来,前者负责导航,后者负责导航结束时选取与语言指令最相符的物体。实验结果表明,直接拼接两类算法取得的效果较差。随后,我们提出了一种导航和物体定位交互的模型,作为该任务的一个强基础性算法。我们也提供了人类完成这个任务的成功率,结果表明目前的算法远远落后于人类表现。因此,该方向具有较大的研究价值和提升空间。

2 数据集简介

REVERIE数据集共包含21,702条人工标注的自然语言指令,涉及1,600多个词汇。指令的平均长度为18个单词。与平均长度29个单词的R2R数据集相比,我们的指令更简洁、自然,也因此更具有挑战性。整个数据集包含4,140个目标物体,覆盖489个类别,接近ReferCOCO数据集的6倍。

图 2 指令长度分布(左),物体数量分布(右)

图2左图展示了指令的长度分布。可以看出,大部分指令具有10~22个单词。最短的指令只有3个单词,如‘flush the toilet’。图2右图展示了指令中涉及的物体数量分布,可以看出,56%的指令提及了3个或以上的物体,28%的指令提及了2个物体,15%的数据提及1个物体。

图 3 指令词云(左)目标物体词云(右)

图3以词云的形式展示了指令中不同单词出现频率的相对大小,以及目标物体中各类物体出现的相对频率(字体越大,占比越高)。可以看出,与导航相关的词汇人们倾向于使用‘go’,目的物体以‘picture’居多。

数据集划分:数据集划分为训练、验证和测试三部分,每部分划分与R2R数据集保持一致。这为后续工作同时利用R2R中详细的导航指令以及本工作的简洁指令提供支持。具体来说,训练集合涉及60个建筑物,10,466条指令,2,353个物体。验证集涉及56个建筑物,953个物体,4,944条指令。验证集中10个建筑物,3,521条指令,513个物体未出现在训练集中。测试集共6,292条指令,涉及834个物体,16个建筑物。测试集的数据未出现在训练集或验证集中。

3 方法

我们发现简单的将前沿的导航算法与图片物体定位算法结合起来并不能在REVERIE任务上取得很好的效果(参见实验结果部分)。为此,我们提出了一个导航和物体定位互动算法。图4展示了算法的主要组成和流程。

图 4 Interactive Navigation-Pointer 模型

首先,物体定位模块Pointer以当前位置的视觉感知图像和自然语言指令为输入,计算并返回与指令最相符的3个物体。这3个物体的视觉特征和类别标签用作导航模块Navigator的输入。同时,Navigator也以语言指令和当前位置的感知图像为输入。由Navigator输出停止或下一个前进的方向。如果Navigator输出停止,则当前步Pointer返回的与语言指令最相似的物体为最终输出结果。

在我们的方法中,我们选取了性能优异的导航算法FAST[5]为Navigator,以MAttNet[6]为Pointer。这两个算法均在我们的数据集上进行重新训练。算法细节请参见我们的论文。

4

实验结果

评价准则:

REVERIE任务采用Remote Grounding Success (RGS) rate作为主要的评价准则,它是成功找到目标物体的任务数与总任务数的比值。而是否成功找到物体有两种评价方法:

1)如果Pointer从模拟器提供的若干候选物体中进行选择,则选出正确的物体为成功。

2)如果Pointer从物体检测器提供的候选物体中进行选择,则预测输出的边框与真实边框的交并比不小于0.5视为成功。

目前,我们采用模拟器提供候选物体的方式进行测评(该设定下,RGS已经非常低)。此外,我们也对导航性能进行评测,主要采用了R2R数据集中的成功率(Success Rate)、路径长度加权(SPL)的成功率等指标。需要注意的是,在REVERIE任务中,如果停止的位置离目标物体3米之内,即视为导航成功。

对比算法:

我们对比了8个算法,他们的工作流程均为先导航,导航结束后使用与我们的算法相同的Pointer找出与指令最相似的物体。这8个算法中包括4个Baseline(Random、Shortest、R2R-TF、R2R-SF)和3个前沿导航算法(RCM、SelfMonitor、FAST-short)以及在该任务上表现最好的前沿算法的一个变种(FAST-Lan-Only,仅输入语言指令到FAST-short中)。

Baseline中Shortest表示假设机器人已经到达目的地,由Pointer返回预测的物体,相当于测试Pointer的准确度。

结果分析:

表2展示了主要实验结果。可以看到随机算法的成功率不到1%,这表明REVERIE任务具有非常大的解空间。

表 2 REVERIE实验结果

R2R-TF和R2R-SF的性能比Random在Val Seen上稍好些,但在Unseen场景下成功率仅有2%左右。Shortest展示出我们选用的Pointer在Unseen场景下最高可以达到50%左右的成功率。

另一方面,前沿导航算法(如FAST-short)在Val Seen上取得了30%左右的成功率,但是在Unseen场景下最高只有7%的成功率。FAST-Lan-Only在ValSeen场景下比FAST-short成功率大幅下降,这表明视觉信息对完成该任务具有重要的作用。

二者在Unseen场景下差异较小主要是因为成功率都处于较低的位置。最后,我们的算法相对前沿算法有所提高,在Unseen场景下取得了11%的成功率,但是离人类的成功率77.84%仍有很大差距。这表明该任务具有较大的探索空间。

参考文献

[1] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko S¨underhauf, Ian D. Reid, Stephen Gould, and Anton van den Hengel. Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments. In CVPR, pages 3674–3683, 2018.

[2] Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh, and Dhruv Batra. Embodied question answering. In CVPR, pages 1–10, 2018.

[3] Sahar Kazemzadeh, Vicente Ordonez, Mark Matten, and Tamara Berg. Referitgame: Referring to objects in photographs of natural scenes. In EMNLP, pages 787–798, 2014.

[4] Angel X. Chang, Angela Dai, Thomas A. Funkhouser, Maciej Halber, Matthias Nießner, Manolis Savva, Shuran Song, Andy Zeng, and Yinda Zhang. Matterport3d: Learning from RGB-D data in indoor environments. In 3DV, pages 667–676, 2017.

[5] Liyiming Ke, Xiujun Li, Yonatan Bisk, Ari Holtzman, Zhe Gan, Jingjing Liu, Jianfeng Gao, Yejin Choi, and Siddhartha S. Srinivasa. Tactical rewind: Self-correction via backtracking in vision-and-language navigation. In CVPR, pages 6741–6749, 2019.

[6] Licheng Yu, Zhe Lin, Xiaohui Shen, Jimei Yang, Xin Lu, Mohit Bansal, and Tamara L. Berg. Mattnet: Modular attention network for referring expression comprehension. In CVPR, pages 1307–1315, 2018.


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-03-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
吴琦:AI研究一路走到“黑”, 从VQA到VLN
AI 科技评论按:本文作者为阿德莱德大学助理教授吴琦,去年,他在为 AI 科技评论投递的独家稿件中介绍了 vision-and-language 任务的最新进展。
AI科技评论
2021/03/25
1.6K0
CVPR 2019审稿满分论文:中国博士提出融合CV与NLP的视觉语言导航新方法
CVPR 2019 接收论文编号公布以来,AI科技大本营开始陆续为大家介绍一些优秀论文。今天推荐的论文,将与大家一起探讨一种在视觉语言导航任务中提出的新方法,来探索未知环境。
AI科技大本营
2019/03/15
1.1K0
CVPR 2019审稿满分论文:中国博士提出融合CV与NLP的视觉语言导航新方法
CVPR 2019审稿排名第一满分论文:让机器人也能「问路」的视觉语言导航新方法
来源:UC Santa Barbara 计算机科学系助理教授王威廉微博。因 CVPR 2019 论文评审并非 open review,得分以及排名无法确认。
机器之心
2019/03/15
8680
CVPR 2019审稿排名第一满分论文:让机器人也能「问路」的视觉语言导航新方法
CVPR出了篇满分论文!中国小哥用人话为机器人导航,5000多篇论文里夺魁
这篇论文,来自加州大学圣巴巴拉分校(UCSB)和微软研究院,题为Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation。
量子位
2019/04/23
5730
CVPR出了篇满分论文!中国小哥用人话为机器人导航,5000多篇论文里夺魁
视觉语言导航研究进展
近年来,越来越多研究人员意识到单模态分析技术在现实中处理信息的局限性,对于自然语言、音频信息以及视觉等多模态融合方面的研究投入日益增加。视觉语言导航[1]是智能体在第一视角下,基于真实环境下的全景图,综合处理指令和视觉信息并进行推理的多模态任务,也是智能管家等应用的核心技术之一。视觉语言导航尝试使用多模态融合的方式,为室内导航任务的研究提供了一个新的方向。如图1所示,智能体需要结合指令信息和视觉信息,在模拟器中完成一系列的决策,最终到达目标位置。其中主要难点在于如何学习理解指令和视觉的信息,从而完成导航过程中的每一步决策。
一点人工一点智能
2023/01/10
1.5K0
视觉语言导航研究进展
一文纵览 Vision-and-Language 领域最新研究与进展
AI 科技评论按:本文作者为阿德莱德大学助理教授吴琦,去年,他在为 AI 科技评论投递的独家稿件中回顾了他从跨领域图像识别到 vision-to-language 相关的研究思路,今年,他又一次介绍了 vision-and-language 任务的最新进展。正文如下。
AI科技评论
2019/05/17
1.1K0
一文纵览 Vision-and-Language 领域最新研究与进展
无需人工标注!三大AI模型联手生成导航训练数据,教会智能体"脑补"陌生环境
这篇论文针对视觉语言导航(VLN)领域长期存在的数据稀缺问题,提出了一种创新的数据增强范式RAM(Rewriting-driven AugMentation)。传统方法主要依赖额外模拟器数据或网络收集的图像/视频,但这些方法存在环境多样性有限或需要大量人工去噪的问题。RAM通过改写人类标注的训练数据直接创建未见过的观察-指令对,实现了无需模拟器和节省人力的数据增强方式。
一点人工一点智能
2025/07/04
770
无需人工标注!三大AI模型联手生成导航训练数据,教会智能体"脑补"陌生环境
【CVPR2023】KERM:面向视觉语言导航的知识增强推理
来源:专知本文为论文介绍,建议阅读5分钟本文提出了一种知识增强的推理模型(knowledge Enhanced Reasoning Model, KERM)来利用知识来提高智能体的导航能力。 视觉-语言导航(VLN)是使具身智能体在真实场景中按照自然语言指令导航到远程位置的任务。以往的方法大多利用整个特征或以对象为中心的特征来表示可导航的候选特征。然而,这些表示不足以使智能体执行动作以到达目标位置。由于知识提供了与可见内容相补充的重要信息,本文提出了一种知识增强的推理模型(knowledge Enhanc
数据派THU
2023/04/08
4810
【CVPR2023】KERM:面向视觉语言导航的知识增强推理
CVPR2019满分文章 | 强化跨模态匹配和自监督模仿学习(文末源码)
首先,祝贺我党在3月成功举行了“两会”,希望我党越来越强大。在接下来将会有好几场关于IEEE会议,也会着重指向接下来人工智能的发展风向标,有兴趣的同学可以持续关注。
计算机视觉研究院
2019/05/13
2.1K0
CVPR2019满分文章 | 强化跨模态匹配和自监督模仿学习(文末源码)
从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究
阿德莱德大学助理教授吴琦回顾了他从跨领域图像识别到 Vision-to-Language 相关的研究思路,如今正将研究领域延伸到与 Action 相关的工作。
AI科技评论
2018/07/26
1.2K0
从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究
解读 | 2019 年 10 篇计算机视觉精选论文(上)
内容一览:2019 年转眼已经接近尾声,我们看到,这一年计算机视觉(CV)领域又诞生了大量出色的论文,提出了许多新颖的架构和方法,进一步提高了视觉系统的感知和生成能力。因此,我们精选了 2019 年十大 CV 研究论文,帮你了解该领域的最新趋势。
AI算法与图像处理
2019/12/23
6080
解读 | 2019 年 10 篇计算机视觉精选论文(上)
VLN: 基于全局对比训练的视觉-语言导航方法
每天给你送来NLP技术干货! ---- 来自:CAAI认知系统与信息处理专委会 视觉-语言导航任务(Vision-Language Navigation, VLN)是指在陌生环境中,无人系统依据语言指示和观测图像之间的跨模态匹配信息,进行自主智能路径导航的方法。不同于前进、后退等简单操控指令,VLN采用类似人人交互的语言指示,比如“走出右侧大门,穿过卧室和客厅,在绿色地毯上的餐桌旁停下”。VLN是一种新型的跨模态智能人机交互方法,能够极大地提升无人系统的自主能力,能够为无人系统走向实用提供关键技术支撑。 序
zenRRan
2022/07/18
1.6K0
VLN: 基于全局对比训练的视觉-语言导航方法
NaVILA:用于足式机器人导航的VLA模型
论文地址:https://navila-bot.github.io/static/navila_paper.pdf
一点人工一点智能
2024/12/27
3300
NaVILA:用于足式机器人导航的VLA模型
CVPR 2019 | 爆款论文作者现场解读:视觉语言导航、运动视频深度预测、6D姿态估计
本文来自:Robin.ly ,AI研习社 经授权转载,请勿二次转载。Robin.ly 是立足硅谷的视频内容平台,服务全球工程师和研究人员,通过与知名人工智能科学家、创业者、投资人和领导者的深度对话和现场交流活动,传播行业动态和商业技能,打造人才全方位竞争力。
AI研习社
2019/07/22
5140
CVPR 2019 | 爆款论文作者现场解读:视觉语言导航、运动视频深度预测、6D姿态估计
大规模计算时代:深度生成模型何去何从
人工智能的核心愿望之一是开发算法和技术,使计算机具有合成我们世界上观察到的数据的能力, 比如自然语言,图片等等。
AI科技评论
2020/04/16
9920
每日学术速递3.6
1.Multi-Source Soft Pseudo-Label Learning with Domain Similarity-based Weighting for Semantic Segmentation
AiCharm
2023/05/15
2490
每日学术速递3.6
CVPR 2023 | 美团技术团队精选论文解读
本文精选了美团技术团队被CVPR 2023收录的8篇论文进行解读。这些论文既有自监督学习、领域自适应、联邦学习等通用学习范式方面的技术迭代,也涉及目标检测、跟踪、分割、Low-level Vision等典型视觉任务的性能,体现了美团在基础通用技术和垂直领域技术上的全方位创新。这些论文也是美团技术团队与国内多所高校、科研机构合作的成果。希望给从事相关研究工作的同学带来一些启发或者帮助。
美团技术团队
2023/09/05
9550
CVPR 2023 | 美团技术团队精选论文解读
北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效
如果想让机器人帮助你,你通常需要下达一个较为精准的指令,但指令在实际中的实现效果不一定理想。如果考虑真实环境,当要求机器人找某个特定的物品时,这个物品不一定真的存在当前的环境内,机器人无论如何也找不到;但是环境当中是不是可能存在一个其他物品,它和用户要求的物品有类似的功能,也能满足用户的需求呢?这就是用 “需求” 作为任务指令的好处了。
机器之心
2023/11/08
2330
北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效
ICLR 2019 | 骑驴找马:利用深度强化学习模型定位新物体
论文:VISUAL SEMANTIC NAVIGATION USING SCENE PRIORS
机器之心
2019/05/17
8700
ICLR 2019 | 骑驴找马:利用深度强化学习模型定位新物体
深度洞察 | OpenCSG带你探索具身智能的前沿
目前人工智能的进展,在诸多数据源和数据集(Youtube、Flickr、Facebook)、机器计算能力(CPU、GPU、TPU)的加持下,已经在CV、NLP上取得了许多任务(如目标检测、语义分割等)的重大进展。
用户11209581
2024/07/17
4610
深度洞察 | OpenCSG带你探索具身智能的前沿
推荐阅读
相关推荐
吴琦:AI研究一路走到“黑”, 从VQA到VLN
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档