前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【CVPR2023】KERM:面向视觉语言导航的知识增强推理

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

作者头像
数据派THU
发布2023-04-08 15:10:26
3520
发布2023-04-08 15:10:26
举报
文章被收录于专栏:数据派THU
代码语言:javascript
复制
来源:专知本文为论文介绍,建议阅读5分钟本文提出了一种知识增强的推理模型(knowledge Enhanced Reasoning Model, KERM)来利用知识来提高智能体的导航能力。

视觉-语言导航(VLN)是使具身智能体在真实场景中按照自然语言指令导航到远程位置的任务。以往的方法大多利用整个特征或以对象为中心的特征来表示可导航的候选特征。然而,这些表示不足以使智能体执行动作以到达目标位置。由于知识提供了与可见内容相补充的重要信息,本文提出了一种知识增强的推理模型(knowledge Enhanced Reasoning Model, KERM)来利用知识来提高智能体的导航能力。具体来说,首先从构建的知识库中检索基于局部区域的导航视图的事实(即语言描述的知识);检索到的事实范围从单个对象的属性(如颜色、形状)到对象之间的关系(如动作、空间位置),为VLN提供了重要信息。进一步提出了KERM,包含净化、事实感知交互和指令引导的聚合模块,以集成视觉、历史、指令和事实特征。所提出的KERM可以自动选择和收集关键和相关的线索,获得更准确的动作预测。在REVERIE、R2R和SOON数据集上的实验结果验证了所提方法的有效性。源代码可以在https://github.com/XiangyangLi20/KERM上找到。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-04-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据派THU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档