首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

具身智能的最新进展

这是“汽车人参考”第421篇原创内容

“让一部分组织率先把握住未来”

这里分享几个观点:

具身智能并不是什么新概念,早在1950年,图灵就提出了前瞻性的思考,他引发我们思考一个问题:智能是否必须依托于物理形态才能存在?现在,越来越多的迹象表明,拥有实体的智能系统正成为新的趋势。

技术层面上,具身多模态大模型成为焦点,也被称为机器人的基础模型。这种模型最吸引人的地方在于,从Input端直接接收文本、语言、视觉信息,以及机器人本体及传感器信息,Output直接输出机器人动作,这是一个端到端范式,也是大家梦寐以求的通用机器人。

谷歌RT-2是目前业界的典型代表。虽然它是一个端到端的架构,但离真正的基础模型还有很大差距。谷歌为了训练这个模型,在3个厨房收集了13万数据,耗费了17个月、16个人力和13个机器人,结果只能在厨房场景里完成移动、抓取、放下的任务。虽然成功率挺高,但泛化能力太差,上千万美金的数据采集成本也高到离谱,而且动作还慢得要命,只能实现5赫兹的动作输出。

相比之下,Figure和OpenAI的模型就显得更加实用,它的输出动作频率能达到200赫兹,核心采用了一种分层的模型架构。这种架构更符合我们对大脑的认知,System2和System1,大小模型分工明确、相互配合、相互调用。

未来到底是统一大模型还是分层大模型,还没有定论,但至少在目前看来,分层似乎更有戏。要让机器人实现通用任务,学术界还有很长的路要走,目前还没有一个通用机器人模型,我个人比较期待英伟达Groot的进展。

商业层面来看,我持谨慎乐观的态度,目前L0层的模型能完成50%-60%的任务,但最难的L1通用层,还需要众多L2层的机器人在各个垂直领域搜集关键数据来反哺,数据和模型永远存在先有鸡还是先有蛋的问题。

要尽快落地,可靠的本体是基础,还要思考所谓通用机器人与协作机器人、复合机器人之间边界问题,成本更是必须考量的因素。抛开这些,要锚定在一个足够刚需的场景,先选择一个简单和复制的任务,链接到大模型,其实就能解决很多商业问题。

各地扶持政策层出不穷,都在争相建设具身智能的高地,这个无须多提。

我越来越坚信,通用机器人是从0到1,前景无限,当前资源充沛、机会多多,行业窗口期,是冷静看“泡沫”,还是冒险入局,大家有什么想法?一起来聊聊。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OtrxTSgdN0J7f7P3w-Y6vGKg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券