首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >虚拟机器人学习自然语言指令技术解析

虚拟机器人学习自然语言指令技术解析

原创
作者头像
用户11764306
发布2025-10-07 20:17:13
发布2025-10-07 20:17:13
190
举报

虚拟机器人学习自然语言指令技术解析

研究背景

具身人工智能(EAI)旨在训练具身代理在交互式模拟环境中解决涉及导航和物体操作的复杂多模态任务。开发此类具身代理需要长时程规划、视觉与语言基础理解,以及开发高样本效率算法。

DialFRED:对话增强的具身指令跟随

基准数据集

DialFRED是一个具身指令跟随基准,包含53,000个人工标注的对话,使代理能够:

  1. 与用户进行主动对话
  2. 利用对话信息更好地完成任务

该数据集的源代码和数据集已公开,鼓励研究人员提出和评估对话增强的具身代理。

数据收集方法

采用新颖、低成本、可扩展的数据收集方法,通过某众包平台实现:

  • 向标注者展示任务视频演示
  • 视频在每个子任务开始时暂停
  • 标注者接收子任务指令并生成澄清问题
  • 标注者观看下一段视频并提出问题答案

对话生成框架

DialFRED采用提问者-执行者框架构建具身对话代理:

提问者模型

  • 使用人工标注对话会话进行预训练
  • 预测何时询问澄清问题
  • 生成与给定情境相关的问题
  • 通过强化学习微调,在适当时机提出合适问题

执行者模型

  • 利用问答信息(除原始任务指令外)
  • 生成完成任务的动作序列

该框架在未见验证集上达到33.6%的成功率,相比被动跟随指令模型的18.3%有显著提升。

感知可用性多模态神经SLAM

技术突破

首次提出同时使用视觉和语言进行探索的感知可用性神经SLAM模型,解决了具身任务中的规划和导航瓶颈。

方法架构

对于给定任务T,方法分为两个阶段:

探索阶段

  • 代理在给定低级语言指令下探索环境
  • 考虑先前探索动作和已访问观察区域
  • 多模态模块选择三种动作之一:前进、左转、右转

执行阶段

  • 使用在探索期间获取的语义地图
  • 规划模块处理导航子目标
  • 对象交互变换器处理其他子目标

性能表现

在ALFRED基准测试中,相比先前工作实现超过20%的绝对改进,达到19.95%的最新泛化性能。

技术影响

这些创新方法显著降低了样本复杂度,实现了高效的长时程规划,并促进了视觉与语言的基础理解,为具身人工智能的发展提供了重要技术支撑。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 虚拟机器人学习自然语言指令技术解析
    • 研究背景
    • DialFRED:对话增强的具身指令跟随
      • 基准数据集
      • 数据收集方法
      • 对话生成框架
    • 感知可用性多模态神经SLAM
      • 技术突破
      • 方法架构
      • 性能表现
    • 技术影响
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档