前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >腾讯云大数据 X Uniffle:重新定义Data+AI效能

腾讯云大数据 X Uniffle:重新定义Data+AI效能

作者头像
腾讯QQ大数据
发布于 2025-04-13 07:40:41
发布于 2025-04-13 07:40:41
1410
举报

本文共计2457字 预计阅读时长8分钟

1

引言

海量数据的分布式处理与高效训练已成为企业构建竞争力的关键。传统大数据架构在应对超过一般数仓体量的数据处理和机器学习(ML)任务时,常因数据Shuffle性能瓶颈、资源利用率低、扩展性不足等问题,导致训练周期长、成本高、迭代效率低下,成为企业智能化升级的瓶颈。

腾讯云弹性 MapReduce 作为企业级大数据计算平台,通过与新一代分布式 Shuffle 服务 Uniffle 的深度集成,打造了一套面向超大规模数据处理尤其是满足机器学习场景的高性能数据处理解决方案

2

行业痛点:大数据与机器学习训练的四大挑战

1.Shuffle性能瓶颈:

拖慢全局的“隐形杀手”

分布式计算框架(如SparkMapReduce)中,Shuffle阶段因涉及跨节点的数据交换,常因磁盘I/O压力、网络拥塞等问题成为性能瓶颈。尤其在机器学习海量数据训练场景中,Shuffle耗时占比可达30%-50%,严重制约任务执行效率。传统方案依赖本地磁盘存储Shuffle数据,不仅读写速度受限,更易因节点故障导致任务失败。

2.资源利用率低:

成本与效率的双重浪费

传统架构中,计算与存储资源强耦合,Shuffle数据需随计算节点动态迁移,导致资源分配僵化。此外,为应对峰值负载,企业常需预留过量资源,空闲时利用率不足50%。这种“资源浪费“相较于按需付费的云上环境尤为突出。

3.扩展性不足:

难以应对数据量级爆发式增长

随着企业数据量从TB级向PB级跃迁,传统Shuffle服务受限于单点存储容量和网络吞吐,难以线性扩展。尤其在大模型训练、多模态数据处理等场景下,对框架具备的弹性伸缩能力要求更敏捷更稳定,传统方案往往力不从心。

4.运维复杂度高:

稳定性与可观测性缺失

Shuffle服务涉及多组件协同,故障定位困难,原生组件缺乏细粒度监控指标,难以预判性能瓶颈。事实上,超过30%的Spark任务延迟与Shuffle相关,但自建平台难以快速诊断根因,运维成本居高不下。

3

腾讯云解决方案:

基于Uniffle的EMR-RSS集群架构

腾讯云弹性MapReduce积极探索解决方案,基于社区Uniffle理念深度自研推出EMR-RSS集群架构,通过创新的"计算-存储分离"设计,在容灾、弹性、隔离三大场景实现突破性升级,极大提升了大数据与机器学习场景下的性能和可靠性。

结合腾讯内部业务积累的方案,腾讯云弹性MapReduce 在多种场景深度集成了腾讯自研RSS框架-Uniffle,针对Spark重度依赖客户和机器学习数据训练场景的客户,提供以下核心能力支持:

1.多框架无缝兼容

● 开箱即用:支持Spark、MapReduce、TensorFlow on Spark等主流计算框架,无需修改业务代码。

2.弹性伸缩 - 资源利用率提升

社区Uniffle通常需要预先配置固定资源池,而自研EMR-RSS集群架构实现:

● 毫秒级弹性:基于实时负载预测算法,自动扩缩容Shuffle Server节点

● 细粒度隔离:支持应用组级资源配额,避免"长尾任务"吞噬整个集群资源

● 混合部署模式:支持EMR on CVM、EMR on TKE及自建集群

3.超大规模数据训练加速

● 支持千亿级样本训练:通过分布式内存管理与高效数据分区算法,Uniffle可处理单任务PB级数据Shuffle,满足推荐系统、广告模型等场景的超大规模特征工程需求。

● 端到端性能提升:腾讯内部推荐业务集成Uniffle后,Spark ML训练任务耗时从22.6小时缩短至8小时,效率提升300%。

4.跨可用区级容灾 - 数据安全再定义

双可用区Shuffle Server,我们实现了:

● 数据双副本:每个Shuffle数据块在可用区间自动复制,杜绝单点故障。

● 智能逃生路径:当主可用区发生AZ级故障时,Coordinator自动切换至备份集群(逃生机制)。

● 混合存储策略:热点数据存云盘(低时延)、冷数据落本地盘(低成本),存储成本降低40%。

4

架构优势:五大技术革新

1.存算分离架构:释放资源弹性

Uniffle将Shuffle数据从计算节点剥离,存储于独立的高性能存储集群(支持HDFS云存储等),彻底解决本地磁盘I/O瓶颈。这样能够使得计算节点专注于任务执行,存储集群按需扩展,资源利用率提升30%以上。

2.分布式内存加速引擎

基于Raft协议构建高可用内存池,Shuffle数据优先写入内存,落盘比例降低至20%以下。通过RDMA网络加速,节点间数据传输带宽提升10倍,时延下降90%。

3.智能调度与数据本地化

MapReduce调度器与Uniffle元数据服务联动,优先将任务调度至存储节点邻近区域,减少网络传输距离。支持数据预取、缓存热区识别,Shuffle读取命中率超60%。

4.全链路高可用设计

多副本机制:Shuffle数据支持2副本存储,单节点故障时自动切换至备用副本,任务中断率为0。重试与熔断策略:支持传输层自动重试、流量熔断,保障复杂网络环境下的服务稳定性。

5.统一管控平面

MapReduce控制台集成Uniffle监控模块,提供Shuffle吞吐量、时延、失败率等20+项核心指标。支持基于历史数据的容量预测与自动扩缩容,运维效率提升70%。

5

对比结果:

稳定性与性能提升

当EMR-RSS与自身Spark ESS在同等数据量和集群节点配置相同情况下,分别从稳定性和性能提升两方面对比。

稳定性对比

在任务并行上,RSS和ESS的性能相近,但是RSS的配置远低于ESS,在部署方式进一步简化之后,可以尝试试探更大集群的RSS并行瓶颈;在数据分区上,RSS表现出更优的性能,可以运行更高分区的数据进行shuffle。

性能提升

在10T规模数据下,使用Uniffle作为RSS相比于Spark ESS,执行效率提升约13.85%,成本提升在10%左右。不难发现RSS在用时较长的用例中基本全部快于ESS,在超过500s的用例中,这个优势相当巨大,而在用时较短的用例中,也就是Shuffle数据较少时,RSS慢于ESS,此时网络传输等其他因素的影响更大。

6

应用实践

腾讯内部

  • 视频号:解锁实时个性化推荐、边缘协同训练等前沿场景,助力构视频号差异化竞争力。
  • 广告:借助实时Shuffle能力,广告用户点击率预测模型延迟从分钟级降至秒级,广告收入增长18%。

外部客户

  • 自动驾驶公司通过升级Spark Shuffle为Uniffle,将感知模型训练周期从2周压缩至3天,算法迭代速度提升5倍。
  • 某 TOP3 电商平台在 618 期间,通过EMR- RSS 集群支持单日 10 亿次商品推荐计算,集群响应速度提升 40%,保障了峰值流量下的服务稳定性。
  • 某头部银行通过 EMR-RSS 集群优化Shuffle性能,处理日均 200 亿条交易数据,在保障 99.99% 查询成功率的同时,资源成本降低 35%。

7

总结与展望

拥抱下一代大数据架构,决胜智算未来!

腾讯云弹性MapReduce此次新增的RSS集群类型并支持Uniffle组件,不仅是一次技术组件的融合,更是面向机器学习时代的大数据架构范式革新。该方案有效解决了Spark场景下超大Shuffle稳定性问题,通过先进的技术架构和简单易用的操作方式,提升了用户的数据处理效率与可靠性,使其可彻底摆脱Shuffle性能瓶颈,让数据真正成为驱动增长的引擎。

在数据量和模型复杂度不断增长的今天,选择腾讯云MapReduce+Uniffle,意味着选择更敏捷的训练效率、更低的运营成本、更稳健的系统架构。无论您是稳步转型的传统企业,还是处在架构升级洪流中的互联网企业,这套方案都将成为智能化升级的核心基础设施。

立即行动,开启您的数据效能革命!

(欢迎扫描下方二维码,联系我们获取腾讯MapReduce+Uniffle架构白皮书与免费POC验证机会)

腾讯云大数据始终致力于为各行业客户提供轻快、易用,智能的大数据平台。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档