

导读:多模态数据正成为企业核心资产,但规模化管理仍具挑战。自动驾驶在 PB 级图像、点云、视频等数据治理中积累了可复用经验。本文介绍某公司以 Apache Doris 统一标签、元数据、全文和向量检索,将查询从分钟级提升至秒级。

多模态数据正在成为各行业企业的核心资产,但大多数团队仍在摸索如何对其进行规模化管理。自动驾驶是少数已经在生产环境中,大规模面对并持续优化这一问题的领域之一:图像、点云、视频、信号以及结构化元数据每天都在同一套数据链路中流转。这个领域积累的工程经验,对其他行业同样具有重要的借鉴意义。
过去,这类能力往往依赖数仓、Elasticsearch、向量数据库等多套系统拼接完成。但当数据规模进入 PB 级、查询进入高并发交互式阶段后,多系统架构的性能、同步和运维成本都会迅速放大。
本文将介绍某自动驾驶公司如何以 Apache Doris 为核心重构数据平台,将标签、元数据、全文和向量四类检索能力收敛到同一套实时分析与检索引擎中,并将查询响应时间从分钟级压缩至秒级。
01
业务规模与数据挑战
本文案例来自一家领先的自动驾驶技术公司,专注于为乘用车提供高级驾驶辅助系统(ADAS)和高阶自动驾驶(AD)解决方案。其产品深度整合算法、软件与专用计算平台,覆盖从传感器感知、决策规划到车辆控制的完整链路,全面提升行驶安全性与驾乘体验。
目前,该公司的解决方案已在多家 OEM 合作伙伴的量产车型上落地部署。依托大规模的量产运营,公司积累了海量真实道路数据,并围绕这些数据构建起数据驱动的研发体系。
该公司每天生成数百 TB 的新数据,总存储量以 PB 计。经过分割和清理后,原始传感器数据变成了片段:富含元数据的连续帧序列,这些数据是算法工程师日常研发的核心素材。片段数量已超过数亿,相应的训练帧数量达到了数千亿。

算法工程师会持续与这些数据进行交互。日常工作包括:
上述工作对实时性要求极高:每秒处理百万帧数据的可见性,以及高并发下秒级甚至亚秒级响应。
02
多模态搜索的四种模式
自动驾驶数据的复杂性,在于需要检索的数据类型极为多样:图像、点云、视频、标签、日志,以及结构化或半结构化的元数据。几乎所有数据任务的本质都是检索,而这些检索需求可归纳为以下四类:

在超大规模数据下同时支持四类检索模式,是整个架构设计的核心挑战。
03
原有架构:三套独立系统,数据割裂
为处理上述不同类型的数据,该公司最初构建了三套独立的数据处理链路:

三套系统之上虽有统一的查询服务层,但实际工作流仍需工程师在多个系统之间来回切换。一个典型任务可能是:先在元数据系统中筛选数据资产,再到数仓中分析标签分布,最后去向量数据库中检索相似场景。这种多系统串行流程既慢又复杂。
三套平台之间的数据同步推高了运维成本,任何 Schema 变更都需要在多处协同更新。随着数据量增长至千亿级别,三套系统在查询性能和扩展能力上都面临日益严峻的压力。
04
统一架构:用 Apache Doris 承载四类检索
这次架构升级的关键,不是简单替换某一个存储系统,是致力于将分散在数仓、搜索引擎和向量数据库中的检索能力,统一到一套面向实时分析的 SQL 引擎中,使得多模态数据能够在同一查询上下文中被过滤、聚合、召回和分析。
该公司此前已引入 Apache Doris 承担标签检索与分析工作。Doris 在这一场景中表现出色:其向量化执行引擎和 MPP 架构能够高效支持千亿级标签的实时聚合与过滤。这一能力已在大规模互联网用户画像与人群定向场景中得到充分验证。将 Doris 用于训练帧的标签组合查询后,数据集构建效率显著提升。

随着 Apache Doris 不断扩展能力边界,并在 SelectDB 等企业级产品与云服务形态中持续强化工程化落地能力,如引入基于倒排索引的全文检索、向量索引,以及高效的半结构化数据处理(含原生 JSON 支持),该公司看到了整合架构的机会。该司开始向以 Apache Doris 为单一多模态检索与分析引擎的统一架构迁移,将原先分散在数仓、向量数据库和 Elasticsearch 中的数据全面整合。
本次迁移遵循五项核心设计原则:
05
落地效果
此次迁移之后,公司在各个方面都取得了可量化的显著提升:

06
总结与展望
在自动驾驶领域,数据平台的核心挑战在于:构建一套能够同时处理文本、向量、标签和元数据,并在海量规模下支持高效检索与分析的统一系统。
从分散的架构转向融合的架构,不仅提升了查询性能和开发效率,更为更智能、更数据驱动的研发工作流奠定了坚实基础。
这些经验的适用范围远不止自动驾驶。任何面临多模态数据规模化管理挑战的行业:智慧城市、工业质检、内容推荐,以及日益兴起的 AI Agent 基础设施都面临同样的架构抉择。以 Apache Doris 为代表的统一实时分析平台,提供了一条经过生产验证的可行路径。