首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >触觉感知赋能机器人灵巧操作

触觉感知赋能机器人灵巧操作

原创
作者头像
用户11764306
发布2026-06-06 13:11:32
发布2026-06-06 13:11:32
910
举报

DAIMON Robotics 希望赋予机器人手触觉

强大的具身人工智能数据集将使机器人能够执行灵巧的操作。

在机器人先驱 Michael Yu Wang 教授的带领下,DAIMON Robotics 开发了一个用于物理 AI 的大规模全模态数据集,旨在加速通用机器人基础模型在现实世界中的部署。

今年四月,总部位于香港的 DAIMON Robotics 发布了 Daimon-Infinity,据称这是用于物理 AI 的最大全模态机器人数据集,具有高分辨率触觉感知,涵盖从在家折叠衣物到在工厂装配线上制造等广泛任务。该项目得到了中国及全球合作伙伴(包括某机构、西北大学和新加坡国立大学)的协作支持。

此举标志着 DAIMON 的一项关键战略举措。这家成立两年半的公司以其先进的触觉传感器硬件而闻名,最著名的是基于视觉的单色触觉传感器,它将超过 11 万个有效传感单元封装在一个指尖大小的模块中。凭借其高分辨率触觉传感技术和能够每年生成数百万小时数据的分布式实验室外采集网络,DAIMON 正在构建包含大量触觉感知数据的大规模机器人操作数据集。为了加速具身 AI 在现实世界中的部署,该公司还开源了其中的 1 万小时数据。

DAIMON Robotics 的联合创始人兼首席科学家 Michael Yu Wang 教授率先提出了视觉-触觉-语言-行动(VTLA)架构,将触觉提升到与视觉同等重要的地位。

Wang 教授的目标是解决机器人操作中缺失的“不敏感性”,目前的实际操作依赖于主流的视觉-语言-行动(VLA)模型。他和他的团队开创了 VTLA 架构,将触觉提升到与视觉同等的地位。

数据集计划

本月,DAIMON Robotics 与多家领先学术机构和企业共同发布了最大、最全面的机器人操作数据集。为什么选择现在发布数据集,而不是继续专注于产品开发?这对具身智能行业将产生什么影响?

DAIMON Robotics 已经成立了将近两年半。一直致力于开发高分辨率、多模态的触觉传感设备,以感知机器人的手(尤其是指尖)与物体之间的交互。这些设备已经变得非常可靠,现在已被大量用户接受和使用,包括学术研究机构以及领先的人形机器人公司。

随着具身 AI 的不断发展,数据的关键作用愈发清晰。数据稀缺仍然是机器人学习的主要瓶颈,特别是缺乏物理交互数据,而这对于机器人在现实世界中有效运行至关重要。因此,数据质量、可靠性和成本已成为研究和商业开发中的主要关注点。

这正是 DAIMON 的强项。基于视觉的触觉技术捕获了高质量、多模态的触觉数据。除了基本的接触力之外,它还记录变形、滑移和摩擦、材料特性和表面纹理,从而能够全面重建物理交互。基于在多模态融合方面的专业知识,开发了一个强大的数据处理管道,将触觉反馈与视觉、运动轨迹和自然语言无缝集成,将原始输入转换为可用于机器学习模型训练的现成数据集。

认识到整个行业的数据缺口,认为大规模数据收集不仅是独特的竞争优势,也是对更广泛社群的责任。通过构建和开源该数据集,旨在提供驱动具身 AI 所需的高质量“燃料”,最终加速通用机器人基础模型在现实世界中的部署。

机器人行业竞争激烈,许多团队都选择专注于数据。DAIMON 正在发布一个大型且高度全面的跨本体、基于视觉的触觉多模态机器人操作数据集。这是如何实现的?

有一个专门的内部团队专注于扩展能力,包括构建硬件设备和开发自己的大规模模型。虽然是一家相对较小的公司,但核心触觉传感技术和创新的数据收集范式使得能够构建大规模数据集。

方法是扩大产品范围。已经建立了世界上最大的分布式实验室外数据收集网络。这个轻量级且可扩展的系统不依赖于集中式数据工厂,允许在不同现实环境中收集数据,每年能够生成数百万小时的数据。

该数据集正在与全球多个机构联合开发。他们在其开发中扮演了什么角色?该数据集将如何有益于他们的研究和产品?

除了中国本土团队,合作伙伴还包括来自大学(如西北大学和新加坡国立大学)的领先研究小组,以及全球顶级企业(如某机构和某移动)。他们决定与 DAIMON 合作,有力地证明了富含触觉的数据集的价值。

在其中一些公司中,有些已经构建了自己的模型,但现在正在整合触觉信息。通过在研究、制造和其他现实场景中部署数据收集设备,帮助收集高度实用、应用驱动型的数据。反过来,合作伙伴利用这些数据来训练适合其特定用例的模型。此外,为了推动整个具身 AI 领域的发展,向更广泛的社群开源了 1 万小时的数据集。

从 VLA 到 VTLA:为什么触觉感知改变规则

当前机器人学的主流范式是 VLA 模型,但团队提出了 VTLA 模型。为什么需要整合触觉感知?它能让机器人实现什么?哪些任务在没有触觉反馈的情况下很可能会失败?

多年来,一直致力于使通用机器人能够执行操作任务,特别是灵巧操作——不仅仅是强力抓取或握住物体,而是操纵物体和使用工具将力和运动传递给部件。期望这些机器人用于家庭以及工业装配环境。

触觉信息对于提供接触状态反馈至关重要,这样机器人才能引导其手和手指执行可靠的操作。没有触觉感知,机器人的能力将受到严重限制。它们难以在黑暗环境中定位物体,并且在没有滑移检测的情况下,很容易掉落玻璃等易碎物品。此外,无法精确控制力常常导致操作任务失败,或者在严重情况下造成物理损坏。因此,自然需要增强 VLA 方法来整合触觉信息。扩展了 VLA 框架以包含触觉数据,从而创建了 VTLA 模型。

触觉传感器的另一个优势是基于视觉的:捕获指尖表面变形的视觉图像。捕获时间序列中的多个图像,这些图像编码了接触信息,可以从中推断力和其他接触状态。这与 VLA 所基于的视觉框架很好地吻合。触觉信息以视觉图像格式存在,使其自然地适合集成到 VLA 框架中,将其转变为 VTLA 系统。这是关键优势:基于视觉的触觉传感器在像素级别提供非常高的分辨率,并且可以将这些数据合并到框架中,无论是端到端模型还是其他类型的架构。

技术:基于单色视觉的触觉感知

团队多年来一直深入研究基于视觉的触觉感知,并开发了世界上第一个基于单色视觉的触觉传感技术。为什么选择这条技术路径?

开始研究触觉传感器后,便理解了需求。希望传感器能紧密模仿人类指尖皮肤下的感知能力。生理学研究充分记录了人类指尖的能力——知道触摸了什么、是什么材料、力如何分布,以及当大脑控制手时物体是否移动到正确的位置。如果在机器人手的指尖上复制这些能力将大有裨益。

在调查现有技术时,发现了许多类型,包括具有三色光学元件的基于视觉的触觉传感器和其他更简单的设计。决定将这些最佳特性整合到一个工程稳健的解决方案中,该方案无需过于复杂即可良好工作,将成本、可靠性和灵敏度保持在满意的范围内,从而最终开发出一种基于单色视觉的触觉传感技术。这基本上是一种工程方法,而不是纯粹的科学方法,因为已经有大量基础研究。随着人们越来越认识到触觉数据的必要性,所有这些都将齐头并进。

去年,DAIMON 推出了多维、高分辨率、高频率的基于视觉的触觉传感器。与传统触觉传感器相比,其核心优势在哪里?它可能改变哪些行业?

传感器的关键特征在于分布式力测量的密度以及能够在指尖区域捕获的变形。相信在传感单元方面拥有最高的密度。这是一个非常重要的指标。另一个是动态特性:频率和带宽——能够多快地检测力变化、传输信号并实时处理它们。其他重要方面主要是工程相关的,例如可靠性、漂移、软表面的耐用性以及抗磁、光学或环境因素干扰的能力。

越来越多的研究人员和公司认识到触觉感知的重要性并采用该技术。相信触觉感知的进步将把整个社群和行业提升到一个更高的水平。一个潜在客户正在一家小型便利店内部署人形机器人,那里货架密集,空间非常宝贵。机器人需要伸入非常狭窄的空间——比书架上的书还要窄——以取出一个物体。目前的两爪平行夹持器无法适应大多数此类空间。观察人类如何拿起物体,显然至少需要三个纤细的手指来触摸并将物体滚向自己并固定住。因此开始看到一些非常具体的需求,其中触觉感知能力是必不可少的。

从学术界到创业公司

在学术界工作了 40 年——共同创立了香港科技大学机器人研究所,获得了包括 IEEE Fellow 在内的多项荣誉,并担任过 IEEE TASE 的主编——是什么促使您创立 DAIMON Robotics?

一路走来收获颇多。在卡内基梅隆大学攻读博士期间开始学习机器人学,当时有非常出色的团队在 Marc Raibert(某机构的创始人)的指导下研究运动,以及在我的导师 Matt Mason(该领域的领导者)的指导下研究操作。多年来,不仅在卡内基梅隆大学,而且在全球范围内,我们一直致力于灵巧操作的研究。

然而,在很长一段时间内进展有限,特别是在构建灵巧的手并使其工作方面。直到最近, locomotion 机器人才真正起飞,并且仅在过去的几年里才开始看到机器人手的重大进步。显然,提升操作能力还有空间,这将使机器人能够像人类一样工作。在香港科技大学时,看到越来越多的学生和博士后研究人员进入这一领域。希望利用可用的资本和人才资源来启动这一努力。

幸运的是,其中一位博士后段江华博士对商业机会有很强的洞察力。认识到机器人市场的快速增长以及基于视觉的触觉传感技术能够带来的独特价值,共同创办了 DAIMON Robotics,并且进展顺利。该社群在中国、日本、韩国、美国和欧洲都得到了巨大的发展。配备 DAIMON 技术的机器人已部署在工厂环境中。

商业模式与商业战略

DAIMON 当前的商业模式和战略重点是什么?数据集的发布在商业战略中扮演什么角色?

最初是一家专注于制造高性能触觉传感器的设备公司,特别是用于机器人手。但随着技术和业务的发展,每个人都意识到这不仅仅关乎一个组件,而是整个技术链:设备、足够质量和数量的数据,以及最终在真实应用环境中构建、训练和部署机器人模型的正确框架。

商业策略最好用“3D”来描述:设备、数据和部署。构建用于数据收集的设备、自己的生态系统,并将其部署在合作伙伴的潜在应用领域。这使得能够收集真实世界的丰富触觉数据和完成闭环验证。这将成为 3D 商业模式不可或缺的一部分。该领域的大多数初创公司都遵循类似的路径,直到最终有些可能变得更加专业化或与其他公司更紧密地整合。目前,主要还是垂直整合。

具身技能与融合时刻

提出了“具身技能”的概念,认为这是人形机器人超越仅仅拥有先进 AI“大脑”的关键。是什么促成了这一见解?具身技能可以实现哪些新能力?在过去两年模型和硬件快速发展之后,对具身技能的定义或路线图是否有所演变?

现在已经走到了一个融合点,过去二十年电气、电子和机电一体化硬件技术取得了巨大进步。机器人现在完全电动化,不需要液压系统,因为硬件发展迅速。现代电子产品提供了巨大的带宽和高扭矩。如果能够将智能构建到这些系统中,就可以创造出真正的人形机器人,能够在非结构化环境中运行,自主做出决策和采取行动。

AI 的出现恰逢其时。大量的资源被投入到 AI 开发中,特别是大型语言模型,现在这些模型正在被泛化为世界模型,从而实现物理 AI 能力。希望看到这些在现实世界的系统中得到体现。

虽然 AI 和核心硬件技术都在不断发展,但现在的焦点更加清晰。例如,在家庭环境中,类人尺寸的机器人是首选。这是一个令人兴奋的领域,如果最终能够实现安全、可靠且成本效益高的机器人,将带来巨大的社会效益。

走向现实世界部署之路

今天,许多机器人可以做出令人印象深刻的演示,但在真正进入现实应用之前仍然存在差距。现实世界部署的潜在触发因素是什么?哪些场景最有可能首先实现大规模部署?

通用机器人的大规模部署之路仍然很长,但开始看到在特定领域内可行性的迹象。这与自动驾驶汽车非常相似,我们尚未看到机器人出租车的全面部署,但已经开始发现移动机器人和小型车辆在酒店业广泛部署。中国几乎所有的大型酒店现在都有一台送货机器人——没有手臂,只是一个从酒店大堂取物品(如外卖)的车辆。送货员只需装载食物并选择房间号。之后由机器人自行导航到达客人房间,包括使用电梯,以送达食物。这在中国的主要酒店中已经几乎百分之百部署。

酒店和餐厅机器人被视为在特定领域(如深夜药店和便利店)部署人形机器人的典范。预计在短时间内将在这种环境中完成部署,随后是其他应用。总的来说,可以预期包括人形机器人在内的自主机器人将逐步渗透到特定行业,在每个行业中创造价值并扩展到其他行业。

最终,愿景是让机器人实现强大的操作能力,并演变为人类可靠的伙伴。通过无缝融入家庭和日常生活,它们将真正造福和服务人类。

—— 本次采访经过编辑,以保证长度和清晰度。FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档