

作者:李进勇 政采云研发中心数据平台负责人 导读: 在当下数字化转型的浪潮中,数据早已从辅助资源跃升为核心生产资料和决策基础。政府提升治理效能,企业优化运营、创新服务,都深度依赖对海量数据的实时洞察与高效处理。 政采云平台作为政府采购数字化的创新典范,集监管、交易、服务于一体,经过近九年的发展,已成为行业内服务范围最广、用户数量最多、交易最活跃、监管产品最丰富的跨区域、跨层级、跨领域的一体化采购云服务平台,日均处理海量高并发数据。Hadoop 作为早期构建大规模数据平台的基石,为政采云平台打开了低成本处理海量非结构化、半结构化数据的可能。然而,伴随业务激增、复杂分析需求及严苛的时效要求,曾经“功臣”的局限性和沉重包袱日益凸显,逐渐成为数据价值释放的“枷锁”。
使用 Hadoop 平台需要部署和管理多个深度依赖的组件(HDFS、YARN、Hive、Spark 等),这些组件各自独立,版本兼容性管理复杂,配置调优相互影响,精密且牵一发而动全身,问题排查就像走迷宫,定位根因异常困难,给团队带来了沉重负担。
为了支撑架构稳定运行,硬件需要配置较多冗余资源,平台运维工程师深陷于组件部署、升级、配置、监控、故障处理等繁琐事务中。政采云数据平台的私有化部署场景,更使得交付和维护成本倍增。
Hadoop 根基在于批处理,即使经 Spark 优化,面对秒级甚至亚秒级响应的分析场景时,Hadoop 仍显得力不从心,难以满足业务部门日益提高的实时数据要求。
组件间紧密耦合导致扩缩容成本高昂,新节点添加需冗长的数据重分布过程,缩容涉及复杂的数据迁移,严重限制了技术栈的灵活选择与独立升级。
当前,信创是国家的重要战略方向。在政采云面向政企客户的场景中,信创要求在不断的提高,Hadoop 面临双重困境:一方面,CDH 停止开源支持存在供应风险。
另一方面,现有开源版本的组件对国产硬件和操作系统的兼容性和性能优化严重不足。
在私有化部署场景下,这直接导致项目落地风险陡增,甚至导致解决方案无法实施。
面对这些多维度挑战,政采云数据团队认识到:对 Hadoop 平台的局部优化已无法解决根本问题,必须寻求架构层面的彻底革新,重新定义数据平台战略。
政采云数据平台团队的核心需求非常明确:
通过广泛调研,StarRocks 凭借其独特的架构设计理念和卓越性能引起了政采云数据团队的高度关注。经过一系列严谨测试、场景验证,政采云做出了关键决策:以 StarRocks 为核心引擎,结合其原生存算分离架构,对政采云数据平台架构进行全面的重构升级!
StarRocks 追求“极致性能”与“极简架构”,其核心优势在于彻底摒弃了 Hadoop 的堆叠模式,实现了真正的“去 Hadoop 化”和“一体化 MPP”架构。镜舟科技作为其商业化公司也提供全面的技术支持,确保其在国产硬件与操作系统上的深度适配与优化。
核心组件仅两个:Frontend (FE) 和 Compute Node (CN)。
政采云移除了 HDFS、YARN、Hive 及部分计算引擎,将数据存储、元数据管理、SQL 计算、复杂查询优化统一收敛到 StarRocks 内。
部署管理清晰简单:管理好一组 FE,按需增加或减少 CN 节点,相比 Hadoop 时期,整个集群启动和运维复杂度呈指数级下降。
统一引擎:StarRocks 集 MPP 向量化执行引擎、CBO 优化器、列式存储、智能物化视图等技术于一身,用户不需要为不同场景准备不同引擎。
全场景覆盖:它不仅支持即席查询和交互式分析,得益于优秀的 Pipeline 处理和对部分更新、主键模型的支持,还具备强大的高并发实时分析。
原生湖分析:通过简单的 Catalog 配置,StarRocks 可以直接分析存放在外部对象存储或原 HDFS 上的湖上数据,无需迁移导入,极大简化了混合架构下的分析流程。
统一接口:所有核心场景(ETL/批处理、实时分析、多维分析、交互式查询)均只需使用一套标准 SQL 接口,打破了不同引擎间的壁垒,极大简化了数据应用开发和数据链路的复杂性。
统一存储层(对象存储)
政采云将需要长期稳定存储的核心数据,统一放置在高可靠、低成本的对象存储上,对象存储本身提供高可靠、无限扩展、按量付费的特性。
高效计算层(StarRocks)
FE 节点统一管理元数据,CN 节点利用本地介质作为热数据缓存层(Cache)并承担计算任务。
基于以上架构组合,进一步实现弹性伸缩:
高效故障恢复
如遇 CN 节点宕机,计算任务会自动调度到其他节点,新增的 CN 节点自动重建本地缓存,FE 故障则自动由 Raft 副本接管,显著增强了系统韧性。
经过周密的技术验证与迁移规划,政采云数据平台从 Hadoop 迁移至 StarRocks 的过程中,主要面临以下挑战:
包括作业开发平台、数据标签系统、数据指标系统、数据质量系统、数据地图、数据权限系统、数据血缘,以及底层自研组件 HTools 和调度系统等。
数仓作业需要从 Spark SQL 转换至 StarRocks SQL,并且需确保 Hadoop 数仓和 StarRocks 数仓的计算结果一致。
业务系统适配改造主要面临工作量层面的挑战,相对可控;而 SQL 血缘收集、数仓作业迁移和数据核对等环节则涉及技术可行性问题,难度显著提升,但团队仍逐一解决。
SQL 血缘收集:相较于 Hadoop 数仓,StarRocks 缺乏表和字段的血缘关系解决方案。由于数据血缘在数仓开发过程中是必不可少的,政采云选择对 StarRocks 进行二开,在 SQL 生成语法树之后的 Analyze 阶段解析出血缘信息,并写入 StarRocks 内部表。
数仓作业迁移:由于 Spark SQL 与 StarRocks SQL 之间存在一些语法差异,人工逐一迁移和改造不切实际。因此,团队开发了一种自动转换语法的迁移功能,约 90%的差异可通过自动转换来处理,其余个性化差异则通过人工进行判断和改造。这种方式大幅缩短迁移时间,还节省大量的人力资源。
数据核对:确保迁移前后批处理结果一致是重大挑战。面对数千张仓库表,StarRocks 可能在不报错的情况下处理某些细微语法差异,导致部分列数据不一致。政采云开发了专门的数据核对工具,通过行数比对、关键枚举值验证和数据抽样 MD5 值等多维度规则,全面保障数据迁移的准确性。
经过诸多挑战,成功迁移至 StarRocks 数仓后,带来的收益是多维度且显著的:
服务自愈能力强: StarRocks 的进程健康检查和自动恢复机制显著减少了人工介入的频率,服务异常能够被系统更快感知并尝试自恢复。
存储无虞: 核心数据存储在对象存储中,对象存储自身的高可靠性使得政采云对数据安全性有了更强的底气。
效率提升:在总体成本大幅下降的同时,绝大多数数据处理任务的产出时效性反而获得明显提升。

运维对象聚焦:监控指标集中、告警收敛。告别监控 HDFS、YARN、Spark、Hive 等多个割裂状态,转为集中管理少量 frontend 进程和众多 backend/compute node 进程。
变更敏捷高效:集群扩缩容从"灾难演练"变为几分钟内完成的日常操作,水平扩展后立即可服务业务,版本升级路径清晰可控。
团队价值回归:数据平台团队从繁琐的“救火”和基础设施维护中解放,转向平台优化、性能调优和业务赋能等更具战略价值的工作。

计算成本降低:存算分离架构实现计算资源按需动态伸缩,消除峰值预留造成的资源闲置,同时 StarRocks 在同等硬件条件下展现出更高的计算效率(吞吐量、QPS)。告别存储与计算紧耦合模式(如 HDFS 要求节点同时承担存储和计算功能),消除了不必要的资源开销。
总体 TCO 下降:综合人力运维、软硬件资源采购与维护等方面的节约,政采云整体 IT 相关成本降低超过 30%。
统一 SQL 入口: ETL 清洗、数据导入调度、批处理报表生成、实时数据大盘查看、深度即席探索分析——所有操作在 BI 工具或客户端中通过标准 SQL 即可一站式完成,告别多平台跳转困扰。
告别“数据搬运工”:大幅减少跨存储系统(HDFS 到其他 DB)和不同格式间的数据流转与转换环节,提升数据时效性,增强链路一致性,简化数据治理落地。
价值释放加速:简化流程、一体化体验与强大处理能力协同作用,显著缩短从数据产生到分析利用的周期,数据驱动决策效率实现质的飞跃。
政采云平台从传统 Hadoop 向现代云原生数据仓库 StarRocks 的成功转型,是技术驱动业务价值提升的一次生动实践。
StarRocks 作为新一代分析型数据库,在支撑实时、高并发、低延迟的交互式分析场景中具有显著优势,云原生架构(存算分离模式)也为企业在成本优化、弹性伸缩方面开辟了全新路径。
另外,其开源友好的模式、活跃的社区,结合镜舟科技等国内厂商提供的商业支持和技术保障,以及在国产操作系统上的深度适配和优化,使其成为政企数字化转型中可信赖的技术选择。
展望未来,数据处理技术的发展趋势清晰可见:极简架构、极致性能、安全可控、云原生弹性、实时智能已成为主流方向。政采云平台将持续深化对 StarRocks 的应用,例如:
政采云数据平台团队将继续依托 StarRocks 这一坚实可靠又充满活力的引擎,深挖数据潜能,致力于打造一个更敏捷、更稳定、更高效、更经济的数据平台,为政企采购数字化领域的不断创新发展注入源源不断的“数据动力“。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。