编辑:陈萍萍的公主@一点人工一点智能
论文链接:https://emos-project.github.io/
项目链接:arxiv.org/pdf/2410.22662
简介
论文提出了一种名为EMOS(Embodiment-aware Heterogeneous Multi-robot Operating System)的新型多智能体框架,旨在解决异构多机器人系统(HMRS)中物理形态感知缺失的核心问题。传统LLM-based多智能体系统依赖人工角色分配,而EMOS通过自动生成"机器人简历"(Robot Resume)动态描述机器人硬件能力,并结合分层任务规划机制实现协作。
作者进一步提出了Habitat-MAS基准测试,覆盖多楼层场景下的导航、感知、操作和综合重排任务,验证了系统在物理形态感知推理上的有效性。实验表明,机器人简历和分层设计对任务成功率提升显著(完整系统成功率达37.82%,消融实验中去除简历后降至15.63%),为HMRS的全自动化(Level-4)提供了新思路。
异构多机器人系统(HMRS)通过互补能力协作应对复杂任务,但现有系统依赖人工设计的角色协议,限制了泛化能力。Rizk等人将自动化分为四级,目前尚无系统达到完全自动化(Level-4)。作者指出,关键瓶颈在于缺乏物理形态感知推理(Embodiment-aware Reasoning),即智能体无法根据机器人物理结构动态理解其能力。例如,轮式机器人无法爬楼梯,无人机视野广阔但缺乏机械臂,这些硬件约束直接影响任务分配。
现有LLM-based MAS在软件开发和操作系统领域表现优异,但在机器人控制中存在局限。例如,Mandi等人的RoCo系统关注多臂协作,但仅适用于特定硬件配置。EMOS的创新点在于提出自生成的机器人简历,通过解析URDF文件(Unified Robot Description Format)和调用运动学工具,自动生成包含自然语言总结与数值能力描述的能力档案。结合分层任务规划(集中式讨论与去中心化执行),系统实现了动态任务分解与分配。
相关工作
在探讨EMOS之前,有必要回顾一下相关领域的研究背景。近年来,将大型语言模型(LLM)集成到多智能体系统(MAS)中成为了一个新兴且迅速发展的研究领域。这种集成利用了LLMs的语言理解和生成能力来增强MAS内的沟通、协调和决策制定过程。例如,吴等人(2023a)、洪等人(2023)和李等人(2024)专注于解决基于LLM的MAS中的通信问题。许等人(2024)则提出了Crab,一个用于评估跨环境下的多模态语言模型(MLMs)性能的基准框架。而在机器人智能方面,张等人(2023)研究了两个智能体如何通过沟通更好地合作完成多房间场景下的任务;曼迪等人提出的RoCo系统尝试利用三维空间推理能力帮助多臂系统的低级别轨迹规划。
相比之下,本研究关注的是一个更为广泛的多智能体场景,其中包括无人机、配备手臂或可升降抓手的轮式机器人以及带手臂的腿式机器人,要求多智能体系统根据物理设计理解包括导航、操作和感知在内的通用能力。同时,关于异构多智能体学习的研究也显示出了极大的关注度,特别是在实际应用中涉及多样化团队的需求。例如,塞拉杰等人(2022)提出了一种针对每台机器人角色和能力定制的学习通信协议的方法,优化动态环境下的团队表现。贝蒂尼等人(2023)开发了专门针对异构团队的强化学习算法,即使在机器人特质存在差异的情况下也能实现有效的内部协调。
这些先前的工作大多集中在特定硬件配置下的多机器人系统(MRS)自动化问题上。然而,达到完全自动化的第四个级别,即全面自动化整个系统,仍然面临着巨大的挑战。目前,据我们所知,还没有任何系统达到了这一水平。因此,EMOS的独特之处在于它通过转移预训练大型语言模型中的先验知识,而无需额外训练,来处理这些异构代理的行为。这不仅提高了系统的灵活性和适应性,也为未来实现更高层次的自动化奠定了基础。
方法解析
3.1 系统概览
EMOS的数学形式化定义为:设N个机器人对应N个LLM智能体,共享环境状态空间S,每个智能体具有观测空间Oi和动作空间Ai。系统通过分层策略
实现任务分解,包含三个阶段:
· 场景上下文构建:基于理想语义SLAM生成环境文本描述;
· 集中式群体讨论:基于机器人简历进行任务规划与分配;
· 去中心化并行执行:各智能体异步执行动作。
3.2 场景上下文构建
环境表示分为四层(图2):
· L1区域连通图:节点表示功能区域(如卧室、楼梯),边表示可达路径;
· L2语义网格:SLAM输出的3D语义地图;
· L3动态状态:机器人位姿与物体位置;
· L4导航网格:用于路径规划的三角网格。
文本化过程将L1和L3转化为自然语言描述。例如,区域连通图G=(V,E)中,节点vi∈V包含区域内机器人/物体列表,边eij∈E表示区域间可达性。这种结构化表示使LLM能推理跨楼层路径规划,如判断轮式机器人需通过电梯而非楼梯移动。
3.3 机器人简历生成
机器人简历是JSON文件,包含三大能力维度:
1)移动能力:通过URDF关节类型(旋转/平移)推断运动约束。例如,四足机器人Spot的腿部关节配置支持楼梯攀爬,而轮式机器人Stretch仅限平面移动。
2)感知能力:基于相机视锥体模型计算可视范围。视场角公式为:
其中x为传感器宽度,f为焦距。智能体通过比较目标物体与光轴夹角α与
,判断是否在视野内。
3)操作能力:通过正运动学采样生成机械臂工作空间凸包。例如,Fetch的7自由度机械臂垂直可达高度为1.2m,而Stretch的伸缩臂水平延伸范围更广。
生成流程分两步(图3):
1)LLM摘要:将URDF简化为骨架树(移除<inertial>等冗余标签),提示LLM生成自然语言总结;
2)数值计算:调用运动学API生成量化参数。例如,对机械臂末端执行器进行蒙特卡洛采样,拟合其可达空间点云。
3.4 分层任务规划与执行
系统采用HMAS-2通信架构(图7),包含中央规划器与多个机器人智能体:
1)集中式讨论:
· 中央规划器初步分解任务,分配子任务;
· 各智能体基于简历反馈可行性。例如,无人机Agent检查目标高度是否超出机械臂工作空间;
· 若存在冲突,触发重新规划。
2)去中心化执行:
· 各智能体异步调用底层API(如navigate_to、pick);
· 动作历史被记录并用于后续决策。例如,机械臂抓取失败后,自动切换为协作传递模式。
算法1(附录A.2)伪代码展示了该过程:在循环中,智能体依次执行动作生成→环境交互→状态更新。异步设计避免了机器人等待造成的效率损失。
实验验证
4.1 Habitat-MAS基准设计
基准基于Habitat仿真平台,集成Matterport3D和HSSD数据集,包含四大任务:
1)跨楼层导航:需协调轮式与四足机器人;
2)协作感知:无人机提供高位视野,地面机器人执行抓取;
3)单层重排:测试机械臂工作空间理解;
4)综合重排:多楼层多对象协作,评估系统整体效能。
关键设计在于任务筛选:确保每个子任务必须由特定机器人完成。例如,高层书架上的物体仅能被Fetch机械臂触及,而楼梯间导航需四足机器人参与。
4.2 实验结果
表1显示完整EMOS在成功率(37.82%)、子目标成功率(81.26%)上显著优于消融实验:
· 去除数值描述:成功率下降至23.56%,尤其在需精确操作的任务3(单层重排)中暴跌(28.35%→9.20%),证明运动学工具的必要性;
· 去除机器人简历:仅依赖人工角色描述时,导航任务成功率从37.37%降至14.14%,体现URDF解析的常识推理价值;
· 去除群体讨论:直接执行导致协作失效,尽管步数最少(2332步),但成功率最低(15.23%)。
图5进一步展示了任务4(综合重排)的挑战性:所有方法在此任务上token消耗激增,但EMOS仍保持最高成功率(13.46%),证明分层讨论对复杂任务的有效性。
4.3 深入分析
附录C的补充实验揭示了更多洞见:
· 格式影响:JSON格式简历成功率(70%)优于自然语言(30%),因结构化数据更易解析;
· 可扩展性:机器人数量增至10时,成功率降至50%(表5),主要因LLM幻觉问题加剧;
· 代码生成错误:图8显示部分案例中LLM误用高度差而非欧氏距离判断可达性,需改进提示工程。
结论
EMOS通过机器人简历和分层规划机制,首次实现了LLM-based MAS在异构多机器人系统中的物理形态感知推理。Habitat-MAS基准的广泛实验验证了其在跨楼层导航、协作操作等任务上的优越性。
未来工作可扩展至更大规模系统(如集群机器人),并增强动态环境适应性(如突发障碍处理)。此外,结合仿真物理引擎(如PyBullet)可提升操作真实性,而引入强化学习可能优化底层控制策略。本研究为LLM在具身智能领域的深化应用提供了重要范式。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有