首页
学习
活动
专区
圈层
工具
发布

把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源

项目地址:https://grape-vla.github.io 代码地址:https://github.com/aiming-lab/GRAPE 研究背景 近年来,视觉-语言-动作模型(Vision-Language-Action...GRAPE 的框架如下图所示: 图 1:GRAPE 的框架 GRAPE 带来了以下三大优势,显著增强了 VLA 模型的泛化性: GRAPE 在轨迹层面通过强化学习(RL)目标对 VLA 进行对齐,赋予模型全局决策能力...,而不仅仅是简单的行为克隆; GRAPE 隐式建模了成功和失败尝试中的奖励,从而提升对多样化任务的泛化能力; GRAPE 采用可扩展的偏好合成算法。...GRAPE 通过与任意目标对齐的偏好对轨迹进行排序,进而使得 VLA 模型能被对齐到设定的目标上。...实验表明,当对齐目标为更安全或更高效的操作策略时,GRAPE 可将碰撞率降低 44.31%,或将执行轨迹的长度缩短 11.15%。

38310
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到
    领券