
5月15-16日,在以“智启新程 乘势而上”为主题的首届焉知人形机器人科技创新大会上,腾讯云存储解决方案总监温涛分享了腾讯云针对具身智能数据存储与处理的端到端整体方案 Data Platform。温涛强调,当下机器人赛道不应只聚焦硬件,软硬件需要协同发展。腾讯云 Data Platform 致力于为具身智能提供高效数据存储与处理支持,助力机器人商业化落地。
腾讯云存储解决方案总监温涛
机器人技术融合数据智能与 AI,
全面赋能产业场景升级
当下,机器人已深度融入我们的生活,在无人机、自动驾驶、生活服务等领域广泛应用。温涛将机器人领域划分为硬件与软件两大板块。硬件方面,新型材料、电池技术、机械关节技术等不断革新,为机器人性能提升奠定了基础;软件领域,各类大模型蓬勃发展,主要涵盖感知、导航、控制三类模型。
他指出,机器人智能的核心在于软件,AI 驱动着感知、导航与操作,推动软硬一体智能进化。在模型训练过程中,数据至关重要。大量数据源于感知系统从外界接收并转化为数字格式,这些数据进入模型训练环节,助力大模型不断完善。
存储技术在此过程中扮演关键角色,它要高效存储与管理海量数据,确保数据安全、可靠且可快速调用,为模型训练提供坚实支撑。通过融合数据智能与 AI,机器人技术将全面赋能产业场景升级,推动各行业向智能化、高效化迈进。
在温涛看来,机器人软件犹如人的大脑,可划分为六个模块,且与感知、导航、控制三大模型紧密对应。
感知系统和人机交互系统如同机器人的“感官”,负责接收外部信息。感知系统能获取周边环境信息,还能接收人类语言指令,将外部环境信息转化为数据,传递给定位和建图系统。定位和建图系统则让机器人“看清”周边环境的整体布局。
基于环境布局和人类指令,机器人规划行动路线,再依据路线与目标做出决策,确定下一步行动。最终,决策信息驱动身体各环节关节,完成具体动作。
这六大软件模块相互协作,从感知环境到接收指令,从规划路线到做出决策,再到驱动身体行动,共同实现机器人的认知与行动,让机器人能像人类一样感知世界、思考问题并采取行动,在各种场景中发挥作用。
以英伟达为例,其实现的 VLA 大模型采用端到端方式,从最初信息录入、感知,到直接形成对行为的控制,模拟人类大脑运作。因此,温涛强调,在机器人领域,硬件虽至关重要,是完成具体动作的基础支撑,是实现物理交互的关键环节,但软件同样不可或缺,它决定机器人能否“做对的事”。软件承担着规划、决策等核心任务,让机器人能依据环境与指令,精准执行相应操作,软硬件协同才能让机器人高效运行。
他接着说,机器人大模型最终能力的实现离不开精心设计的训练环节。我们将模型训练分为数据采集、预训练、后训练调优和仿真四个阶段,且这四个阶段都与数据紧密相关。
其中,数据采集是起点,为后续训练奠定基础。采集后的数据需经过清洗、格式转换,才能进入预训练阶段。预训练让模型初步具备能力,之后借助更精细、针对具体小场景的数据进行后处理和联合调优,提升模型性能。仿真阶段则根据周边环境和指令的数字化,对模型进行校验。
可以说,整个训练过程都围绕数据展开,尤其是后三个阶段,它们相互协作,共同实现大模型最终的训练效果,让机器人大模型具备更强大的能力。
机器人大脑模型训练场景对存储的需求
调研与实际项目实践发现,机器人不同业务环节对数据存储和处理有着不同需求。在数据采集环节,接口需适配各类采集设备,IO 读写上对写入性能要求较高,以保证能快速存储大量采集数据,同时对时延也有一定要求,以确保数据及时保存;预训练阶段,对带宽要求突出,需快速读取海量数据用于模型训练,读取性能是关键;后训练调优时,读和写性能要求都较高,既要读取大量数据优化模型,又要及时写入调优结果;仿真过程中,对时延要求极高,需实时读写仿真数据,以保障模型校验的准确性。
在机器人端到端的业务流程里,各环节对存储的要求截然不同。这无疑给整套系统带来了巨大挑战。
温涛说,机器人与自动驾驶领域存在诸多相近之处,在为自动驾驶客户提供方案初期,我们发现业界缺乏完整成熟的数据处理与存储方案。当时,客户内部不同业务环节常对应独立部门,在发展初期,平台化部门尚未建立,多由业务部门驱动IT建设。
这就导致在自动驾驶(如今机器人领域同样如此)的四个业务环节中,每个部门都有自己独立的一套存储系统。各业务环节间存在数据流动,当一个环节处理完数据后,需将其迁移至下一环节。这一过程带来了诸多问题,首先是成本增加,数据搬移迁移涉及网络成本和硬件成本,同时迁移过程耗费时间,影响项目进度。
此外,每个环节都要考虑数据可靠性,需设置数据冗余副本,这不仅降低了效率,还进一步增加了成本。
作为专业的方案提供商,我们深刻认识到这些问题对客户的影响,因此致力于帮助客户提升效率、降低成本。经过深入思考,我们确定了整体方案的大方向,即构建一套基于数据湖的底层存储架构。该架构能够统一支撑不同业务环节对数据存储和处理的需求,打破部门间的存储壁垒,实现数据的集中管理和高效利用。
通过数据湖架构,各业务环节的数据可以无缝流动,减少数据搬移迁移带来的成本和时间损耗。同时,数据湖能够提供统一的数据可靠性保障,避免各环节重复设置冗余副本,提高整体效率,降低成本。这一方案将为机器人和自动驾驶领域的数据存储和处理带来新的变革。
看上去构建一套底层产品能力以支持机器人各环节不同存储需求似乎简单,实则困难重重,而这正是 Data Platform 方案要攻克的核心问题。
机器人赛道相对较新,正处于快速发展初期。回顾过去几年,自动驾驶和 AIGC 这两个基于 AI的业务领域,也经历了如今计算机器人所处的发展阶段。
近几年与客户沟通方案、解决问题时,常遇到架构调整与优化方面的难题。客户在最初建设时缺乏统一规划和方案,导致后续问题频发。比如,很多客户面临从 IDC 上云的问题,要解决混合云复杂架构,整合成统一云,甚至出现多云情况。但这种多云并非规划好的,而是因不同云服务商有不同算力卡或价格优势,客户将系统分散部署,造成系统跨云、数据难以共享的困境。所以,不得不花费大量精力帮客户“还旧账”。
然而,对于客户而言,这样的调整过程十分痛苦。整体架构升级会带来稳定性风险和业务中断,而新兴发展的业务时间就是金钱,客户常后悔当初未多花时间选择端到端成熟方案,以支撑未来三五年业务弹性发展,确保根基稳固。
针对这些问题,Data Platform 方案旨在打造一套统一的底层存储架构,基于数据湖理念,满足机器人各业务环节对存储的差异化需求。通过该方案,可实现数据的集中管理、高效流动与共享,避免跨云数据孤岛问题。同时,该方案注重架构的稳定性和可扩展性,在保障业务连续性的前提下,支持客户业务快速发展。
事实上,在机器人赛道早期,不少人觉得业务量不大,靠几个运维人员在 IDC 上弄几台服务器就能解决问题,似乎无需过多考虑长远规划。但当业务快速发展时,若此时再进行大规模架构调整,就会成为影响业务发展的关键因素。
与其在业务发展受阻时才亡羊补牢,不如一开始就将系统架构作为整体进行设计和考虑。腾讯云致力于帮助客户做到这一点,尽管从当前来看,云和机器人领域面临的问题优先级似乎不高,但从整体业务发展角度出发,基础架构必须在早期就规划好。
腾讯云数据平台 Data Platform
腾讯云 Data Platform 解决方案是一个端到端的整体方案,包含众多组件,这些组件协同工作,才能满足不同业务阶段和环节对存储与数据处理的多样化需求。
从架构图来看,最上层是业务环节,中间是接口层,最下层是四个主要组件。其中,统一的数据底座和存储底座采用对象存储。之所以选择对象存储,是因为它最适合处理海量多模态、非结构化数据,且具有低成本优势。
温涛指出,在 AI 领域,无论是机器人、自动驾驶还是 AIGC 赛道,训练和仿真过程都面临海量数据挑战。AI 训练依赖大量采集数据进行模型迭代,训练过程中数据读写频繁;仿真环节同样需要处理海量数据。
他以自动驾驶和 AIGC 赛道的客户为例介绍道,曾有单体客户收集用于训练的数据量超百 PB。这些数据不仅规模庞大,而且呈现多模态特征,涵盖文本、图片、视频以及传感器直接收集的结构化数据。面对如此复杂的数据,对象存储成为最佳选择,它能高效处理海量多模态、非结构化数据,且成本较低。
然而,对象存储存在性能短板。其协议特性决定了在性能上通常不如块存储和文件存储。为解决这一问题,腾讯云采用加速手段和技术,结合对象存储构建高性能存储系统,既保留海量多模态低成本优势,又能满足高性能需求。
从方案架构来看,主要包含两个层面。首先,以对象存储作为数据底座,为海量数据提供存储支撑。其次,在计算和业务之间构建高性能存储缓存层或热数据层。通过这一设计,可以充分发挥对象存储能在系统中的作用。
按照子系统划分,腾讯云对象存储 COS 负责海量数据存储;GooseFS 作为高性能存储缓存层或热数据层的关键组件,与对象存储协同工作,为 AI 训练和仿真提供高效、稳定的数据存储和处理解决方案。
在 AI 相关业务中,数据加速组件是一套包含多种能力的集合,腾讯云将其命名为 GooseFS。从整体架构看,一左一右解决数据存储问题,中间则聚焦数据处理。
在原始数据采集完成后,正式进入训练前,数据处理环节至关重要。一方面,要依据大模型 API 要求,对数据格式进行处理,确保数据符合模型训练标准;另一方面,需进行数据清理,剔除不合格数据,保证数据质量。此外,脱敏处理也不可或缺,例如在自动驾驶场景中,路上捕捉到的人脸信息涉及个人隐私,绝不能进入大模型,必须进行脱敏处理。在 AIGC 场景生成 AI 数据时,同样要对数据进行进一步加工,以满足不同应用需求。
除了常规数据处理,还引入了 MetaInsight(Data Catalog)组件。随着大模型不断完善、能力提升,它为非结构化数据处理带来了新契机。以往,图片、视频等非结构化数据难以直接利用,而现在借助 AI 技术,能够对图片和视频中的元素、信息进行自动识别和提取。通过 Data Catalog,可以对非结构化数据进行筛选和排列,精准挑选出包含特定元素和内容的非结构化数据。如此一来,就能将这些经过筛选的数据精准投喂给模型,用于特定场景下的训练,大大提高模型训练的效率和准确性,为 AI 业务发展提供有力支持。
Data Catalog 组件致力于将非结构化多模态数据转化为结构化数据,为后续精准处理奠定了基础。
温涛详细介绍了 Data Platform 解决方案中的四大子系统。首先是对象存储,它具备高可靠、高可用和超大规模三大显著特性。在业界所有公有云存储中,其12个9的数据可靠性、4个9(99.995%)的高可用以及百亿级别的集群规模处于顶尖水平。这意味着客户的数据能够得到高度可靠的保障,系统几乎不会出现故障,且能够轻松应对海量数据的存储需求。
缓存加速在方案中至关重要。随着 GPU 速度不断提升,内存、SSD 等高性能存储介质快速发展且成本降低,存储系统的高效性能必须跟上计算和高速介质的发展步伐。对象存储基于 HTTP 协议,原生性能存在一定局限,因此需要通过数据加速层来解决这一问题。
在五个 GooseFS 家族中,与机器人业务最相关的两个细分产品能力是 GooseFS-Cache 和 GooseFS-X。GooseFS-Cache 是一个缓存组件,主要用于解决读缓存问题。它不涉及持久化,对可靠性要求不高,核心优势在于快速响应,能够大幅提升数据读取速度。GooseFS-X 则是一个高性能文件系统,与对象存储 COS 结合,实现冷热数据分层。热层作为持久化层,需解决可靠性问题,它将高性能要求的数据优先提供,待数据热度降低后,再下沉到冷数据层。这种缓存与分层的机制,既保证了数据处理的快速性,又兼顾了数据的可靠性和成本效益。
GooseFS 产品历经几年发展,去年正式发布 GooseFS 2.0,今年年初又进行了进一步完善和优化。相较于1.0版本,2.0在功能和能力上有了显著提升,能够更好地满足客户在数据存储和处理方面的需求,为机器人等 AI 业务的发展提供有力支持。
在数据加速体系中,Cache 是大家较为熟悉的概念,主要用于加速数据读取。从成本最优角度出发,应该倾向于选用计算侧本地的高性能介质,如 NVMe SSD,甚至内存。由于缓存无需过多考虑可靠性问题,使用内存也完全可行。
温涛说,作为高性能文件存储,GooseFS 可独立存在,数据存储具备高可靠性。它与对象存储 COS 呈分层关系,这就涉及到数据在两者之间的双向流动问题。
在数据写入方面,会先写入 GooseFS 层,以快速完成写操作。过段时间,当这部分数据无需再读取或进一步加工修改时,便会快速沉降到对象存储中。这是因为对象存储成本较低,适合长期存储海量数据。
而在数据读取时,最终数据都存储在便宜的对象存储里。根据业务需求,需要动态从对象存储读取部分数据,此时 GooseFS 需实现特定调度机制。它要主动、快速地发现业务接下来需要的数据,并将其从对象存储读取到 GooseFS 热层,供计算侧使用。这对性能要求极高,需确保数据读取的及时性和高效性。
高性能文件存储时,小文件处理是公认的难题。这是因为小文件意味着在相同容量下,元数据量巨大,其理成为高性能文件存储的关键挑战。腾讯云的产品通过全分布式 MDS 架构,实现了对海量元数据的分布式处理,从而支持海量小文件的读写操作。在大模型训练场景中,往往涉及海量小文件,这正是这款产品发挥作用的重要领域。它能够有效解决小文件处理难题,确保数据读取和写入的高效性,为大模型训练提供稳定、快速的数据支持,助力客户在 AI 领域取得更好的成果。
他补充说,不同业务环节对数据处理要求不同,这是区分使用 GooseFS 不同组件的关键。在数据预处理环节,主要操作是读取数据,此时使用 catch 即可满足需求。缓存无需考虑过多可靠性问题,能快速响应读请求,提升数据读取效率。
而在训练过程中,存在 checkpoint 机制,有写数据的要求,需要同时具备读和写的能力。若仅依靠缓存来实现读缓存和写缓存功能,系统会变得复杂。此时,使用高性能且可直接持久化的文件系统(如 GooseFS-X)是更好的选择。它既能满足训练过程中的读写需求,又能保证数据的可靠性和持久性,所以需要 GooseFS-X 来解决训练环节的问题。
在 Data Platform 功能构建中,数据处理与 MetaInsight 的 Data Catalog 紧密结合,共同集成于数据万象产品。它协同数据存储,共同完成整个 Data Platform 的功能。
数据万象 CI 将对象存储 COS 与数据加速能力整合,呈现出一幅数据存储能力的全景图。面对各种多模态、不同格式的非结构化数据,其处理内容丰富多样。不过,对于机器人场景而言,仅需用到其中部分能力。
例如数据脱敏,在采集涉及个人隐私的数据(如人脸信息)时,数据万象 CI 能将其处理,避免敏感信息进入模型,保障数据合规性。数据清洗功能可剔除不合格数据,提升数据质量。数据格式转换则能满足大模型 API 对数据格式的要求,确保数据能顺利用于模型训练。
此外,在 AIGC 场景中,内容审核功能至关重要。大模型训练可能出现偏差,生成不符合国家内容合规性规定的内容,数据万象的服务能力可对生成内容进行把关。虽然目前内容审核在机器人场景并非关键要点,但随着业务发展,未来也可能发挥重要作用。数据万象为机器人场景提供了全面且灵活的数据处理与存储解决方案。
Data Catalog 主要解决非结构化数据的结构化转换难题。就像在会议室拍照,照片作为非结构化数据,包含丰富的元素。通过 AI 能力,Data Catalog 能自动识别并提取这些元素,比如识别出会议室场景,以及其中的吊灯、地毯、桌子、椅子等物品,还能分辨嘉宾的不同特征,如穿着、是否戴眼镜、戴帽子等。经过这样的处理,原本杂乱无章的非结构化数据就变得有序可查,能为后续的进一步加工和处理提供有力支持,极大地提升数据利用效率。
MetaInsight 是内部重要的数据处理组件,其处理流程清晰且高效。它主要包含三大部分组件:API、万象图文大模型以及腾讯云向量数据库。
温涛提到,万象图文大模型由公司内部专业团队提供支持,该模型经过大量数据训练,具备出色的通用性,能精准应对各类数据处理需求。腾讯云向量数据库则为数据存储提供了可靠保障。其工作原理为:当需要对数据进行处理时,先将待处理数据集通过 API 调入系统。接着,利用万象图文大模型强大的能力对数据进行向量空间转化。这一转化过程十分关键,它如同为非结构化数据赋予了“结构化基因”,让原本难以处理的数据变得有序。最后,将转化后的数据存储到腾讯云向量数据库中。通过这一系列操作,成功将非结构化数据转化为结构化数据,为后续的数据分析、挖掘等工作奠定了坚实基础,极大提升了数据利用的效率和价值。
当客户需要对数据集进行分析处理时,比如从一系列照片中提取下雨天场景或特定穿着人物等元素,Metainsight 的 Catalog 能力便会发挥关键作用。客户将指令通过 API 调用进来,系统会借助大模型将指令转化为向量,随后在向量数据库中进行匹配,最终返回满足客户筛选要求的非结构化文件。
而 GooseFS 的主要职责是加速数据处理。它采用少量高性能存储系统搭配高性能介质,旨在解决对象存储的性能瓶颈问题。不过,GooseFS 只能保存部分加速数据,这就对加速数据的选择提出了高要求。若选择不当,系统会频繁从对象存储中查找数据,反复尝试,导致大量时间消耗在数据传输上,整体性能难以提升。
如何高效精准地从对象存储中找到需要加速的数据呢?温涛表示,此时,MetaInsight 提供了更优的解决方案。它依据 Catalog 能力,精准定位与业务相匹配的数据。具体而言,MetaInsight 先对数据进行深度分析,识别出符合业务需求的数据特征,然后从对象存储中精准找到这些数据,并将其加载到 GooseFS 的缓存层。
通过 MetaInsight 与 GooseFS 的协同工作,实现了高效精准的数据调用。MetaInsight 充当“数据导航员”,为 GooseFS 指引方向,确保其缓存层加载的是最有价值的数据,从而充分发挥 GooseFS 的加速性能,提升整个数据处理流程的效率,为客户提供更优质的数据服务。
MetaInsight 与 GooseFS 结合,显著提升了存储系统性能。在自动驾驶领域,这种协同优势尤为突出。
自动驾驶模型训练通常以图片、视频作为原始输入数据。以往,依赖人工对图片内容进行标识、打标签,这不仅耗费大量人力,还可能因人为因素导致标签不准确,影响模型训练效果。
而 MetaInsight 的 Catalog 能力可借助 AI 自动识别图片元素并打标签,极大提高了效率和准确性。它能快速分析图片,识别出道路、车辆、行人等关键元素,为模型训练提供高质量的数据。
同时,GooseFS 的加速功能确保了数据读取的高效性。在自动驾驶模型训练过程中,需要频繁读取大量图片、视频数据。GooseFS 通过缓存加速,将常用数据保存在高性能存储层,减少从对象存储读取数据的延迟,让模型训练能够快速获取所需数据,从而加快训练速度,提升整个自动驾驶训练流程的效率。
温涛以自动驾驶训练场景为例解释说,传统的人工打标签方式存在严重问题:若需新增标签,必须重新进行整个训练过程,代价高昂且效率低下。
而 MetaInsight 的 AI 能力完美解决了这一痛点。它能够自动识别图片元素并打标签,无需人工干预。这种 AI 驱动的标签识别方式不依赖人为定义,因此无需担心标签定义的变化。只需一次性处理原始数据,即可完成智能标签工作,大幅提高了效率,降低了成本。
根据 Data Platform 与机器人业务流程的紧密结合,我们构建了一个完整的解决方案实例。该方案涵盖原始数据、业务流程(包括预处理、模型训练、仿真验证)等环节。其中,带颜色的框表示 Data Platform 集成的产品能力,这些能力协同工作,为机器人场景提供了高效、可靠的数据处理支持。
GooseFS 根据不同阶段需求提供三种实现:GooseFS-Cache(高性能缓存)、GooseFS-X(主存储方案,基于COS构建)和 GooseFS-Lite(仿真阶段专用的轻量级协议转换层,仅作协议网关不依赖介质)。模型训练阶段以 GooseFS-X 为主存储,底层使用COS对象存储,并通过 MetaInsight 实现数据精准识别和知识提取,确保训练数据的高效管理和质量。
温涛最后总结道,腾讯云 Data Platform 解决方案通过统一存储架构实现数据管理的高效与智能。该方案消除了数据冗余和系统割裂,提供单一存储空间;通过 GooseFS 系列优化性能,配合 MetaInsight 和万象大模型实现智能数据治理,包括自动标签、分类和知识提取。灵活的资源配置和极致性能表现共同构建了一个完整的软件平台,显著降低了 IT 复杂度,提升业务响应速度,为企业数字化转型提供强大支撑。