Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >万亿参数大模型网络瓶颈突破:突破90%网络利用率的技术实践

万亿参数大模型网络瓶颈突破:突破90%网络利用率的技术实践

原创
作者头像
星融元Asterfusion
修改于 2025-04-28 06:21:21
修改于 2025-04-28 06:21:21
2540
举报
文章被收录于专栏:星融元星融元

人工智能技术快速发展的浪潮下,现代数据中心网络正面临着前所未有的挑战。GPT大模型的参数量已突破万亿级别,自动驾驶训练需要处理PB级的场景数据,这些都使得AI计算集群规模呈指数级增长。

根据OpenAI披露的数据,GPT-4训练使用的GPU数量已超过25,000个,这种大规模并行计算架构对网络性能提出了严苛要求:网络传输时延需要控制在微秒级,带宽利用率必须达到80%以上,任何网络抖动都会直接导致算力资源的闲置浪费。

统计数据显示,传统以太网的平均利用率长期徘徊在35%-40%,这意味着超过60%的网络带宽资源处于闲置状态。这种低效不仅造成巨额硬件投资浪费,更成为制约AI训练效率的关键瓶颈。

传统以太网的困境

网络利用率作为衡量实际传输流量与理论带宽比值的核心指标,在AI计算场景中直接决定模型训练周期。这种效率瓶颈源于多重技术桎梏:

  • 流量复杂度倍增:现代数据中心混合承载着AI训练的长流(Long Flow)、推理服务的短流(Short Flow)、存储复制的大包(Jumbo Frame)以及管理信令的小包(Mouse Flow)。这种流量形态的多样性导致网络必须按"峰值突发量×安全冗余"的超配模式建设,造成非峰值期大量带宽闲置。
  • 架构性阻塞难题:经典的接入-汇聚-核心三级架构存在天然的收敛比限制。以典型4:1收敛比设计为例,当接入层40G链路满载时,汇聚层100G链路的理论利用率仅能达到80%,若考虑流量潮汐效应,实际利用率常低于50%。
  • 丢包引发的链式反应:传统QoS机制采用尾丢弃(Tail Drop)或WRED随机丢弃策略应对拥塞,这种"先污染后治理"的方式触发TCP超时重传,导致有效带宽被重传数据重复占用。实测表明,1%的丢包率即可造成吞吐量下降40%。
  • 流控机制钝化:基于ECN的拥塞通知仅能传递1bit信息,终端设备需通过"探测-降速-恢复"的试探性调节适应带宽变化。这种开环控制方式在应对AI训练中的All-Reduce等集合通信时,调节延迟常超过100ms,造成带宽利用的阶段性塌陷。
  • 路径调度失衡:依赖五元组哈希的ECMP算法,在面对AI训练中持续时间长达数小时、带宽需求稳定的"大象流"时,极易引发路径选择的极化现象。某知名云厂商的故障案例显示,40%的等价链路处于空载状态时,剩余60%链路却持续过载丢包。

超级以太网的技术突围

为突破85%网络利用率的目标,超级以太网联盟(UEC)提出系统性解决方案:

1、专用通道隔离:利用AI流量可预测特性构建物理隔离的RoCEv2专用网络。某头部AI实验室的实践表明,通过分离训练流量与存储流量,网络有效利用率提升27%,GPU空闲等待时间减少41%。

2、无阻塞拓扑:我们需要设计无阻塞的网络结构,如CLOS、Dragonfly, Torus, MegaFly, SlimFly等。目前,CLOS是最流行的网络结构 [3],在这个网络结构中,总接入带宽与总汇聚带宽相等,并容易在纵向和横向上扩展,在宏观上实现了无阻塞。然而由于流量不均衡和微突发现象的存在,在局部链路上,拥塞仍然会存在。

3、精准拥塞控制升级:当In-Cast拥塞产生后,目前主要通过端到端的流控机制来缓解这一问题。例如,基于ECN的DCQCN/DCTCP技术通过调节源端的发送流量速率,适应网络的可用带宽。由于ECN携带的信息只有1个bit,这种调节方式不够精确。为了解决这一问题,UEC传输层(UET,Ultra Ethernet Transport Layer)提出了以下改进措施:

  • 加速调整过程:UET通过测量端到端延迟来调节发送速率,并根据接收方的能力通知发送方调整速率,快速达到线速。
  • 基于遥测:来自网络的拥塞信息可以通告拥塞的位置和原因,缩短拥塞信令路径并向终端节点提供更多信息,从而实现更快的拥塞响应。

4、包喷洒:突破传统流级调度的"包喷洒"技术,通过动态路径选择算法将数据包离散分布在多条路径,从而更充分地利用网络带宽。由于这种方式会导致目的地接收到的报文乱序,因此需要修改传输协议,允许包乱序到达,并在目的地重新组装为完整的消息。然而,重组过程带来了额外的开销,增加了整个流的延迟,且目的端需要等待该流的所有包传输完毕后才能处理整个消息,无法实现流水线操作。

实践突破

作为UEC核心成员,星融元通过三大技术创新将网络利用率推升至90%:

Flowlet

前面提到,基于流的ECMP容易造成负载不均衡,而包喷洒技术又带来了额外的延迟。有没有两全其美的技术?flowlet应运而生。Flowlet是根据流中的“空闲”时间间隔将一个流划分为若干片段。在一个flowlet内,数据包在时间上紧密连续;而两个flowlet之间,存在较大的时间间隔。这一间隔远大于同一流分片内数据包之间的时间间隔,足以使两个流分片通过不同的网络路径传输而不发生乱序。

并行计算过程中,计算和通信是交替进行的。因而AI并行训练和推理产生的流量是典型的flowlet。

当网络发生拥塞时,可将flowlet调度到较空闲的链路上以缓解压力。在AI训练和推理网络中,RDMA流通常较持久,训练流可能持续数分钟至数小时,推理流多为数秒至数分钟,而flowlet则以微秒到毫秒级的短暂突发为主。这种基于flowlet的精细调度能有效优化流量分配,显著降低网络拥塞,从而提高网络利用率。

基于遥测的路由

将传统OSPF的静态度量升级为时延、丢包、利用率等多维度动态权重。通过部署在Spine层的分布式决策单元,实现10ms级别的全网状态同步与路径重计算。某自动驾驶公司的实测表明,突发流量下的路径切换延迟从秒级降至毫秒级。

基于遥测的路由(Int-based Routing)技术结合OSPF、BGP和在网遥测(INT)技术,为网络中任意一对节点之间计算多条路径,每个路径的开销是动态测量的延迟,从而能够根据实时的网络负载进行路由,从而充分利用每个路径的带宽。

WCMP

ECMP技术将包、flowlet或整个流均匀的分布到多个路径上,忽略了不同路径上的实际负载。为了进一步提升网络利用率。星融元采用加权代价多路径(Weighted Cost Multiple Path)算法,基于遥测获取的时延等信息,在时延更低的路径上调度更多的流量,在时延更高的路径上调度更少的流量,从而实现所有路径的公平利用。在理想情况下,流量经过不同路径的总时延是相等的,可充分利用所有可用带宽。

随着AI大模型参数规模突破10万亿,超级以太网正从技术概念演变为算力基础设施的关键支柱。通过架构革新与协议栈重构,网络利用率突破90%已具备工程可行性。这不仅意味着数据中心OPEX的大幅降低,更将推动AI训练效率进入新的数量级,加速通用人工智能时代的到来。

【参考文献】

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
博通发布全球首款102.4T交换机芯片Tomahawk6:定义超大规模AI网络核心架构
      2025年6月3日,博通(Broadcom)正式发布Tomahawk 6交换机芯片系列,成为全球首款单芯片具备102.4 Tbps交换容量的解决方案,带宽达到市场现有以太网交换机的两倍。这一突破直接瞄准下一代AI集群的核心需求——从数十个加速器扩展至数千甚至超百万XPU的规模时,网络带宽与低延迟成为关键瓶颈。
光芯
2025/06/09
2140
博通发布全球首款102.4T交换机芯片Tomahawk6:定义超大规模AI网络核心架构
超以太网联盟(UEC):推动以太网革新,赋能 AI 与 HPC 领域
以下内容来自于《The Next Platform》的蒂莫西・普里克特・摩根(Timothy Prickett Morgan)和AMD 技术总监杰伊・梅茨(Jay Metz)的对谈,进行了压缩改编
AIGC部落
2025/05/22
2060
超以太网联盟(UEC):推动以太网革新,赋能 AI 与 HPC 领域
IB vs RoCE:梳理AI智算网络的负载均衡与流控方案
在人工智能迅速发展的今天,大模型训练已成为推动技术进步的核心动力。然而,随着大模型规模的不断扩大和训练需求的增加,智算网络面临的挑战也日益严峻。网络作为连接计算集群的重要基础设施,其性能直接影响着AI训练的效率和效果。
星融元Asterfusion
2025/04/17
4030
IB vs RoCE:梳理AI智算网络的负载均衡与流控方案
都 Spine+Leaf 架构了,为什么数据中心网络还会拥塞?
目前数据中心流行的是 CLOS 网络架构:Spine+Leaf 网络架构,如下图所示:
通往ICT之路
2024/05/17
5760
都 Spine+Leaf 架构了,为什么数据中心网络还会拥塞?
聚众群殴 IB 网络,超以太网联盟携 45 名新成员走向 v1.0 规范!
超以太网联盟 (UEC) 继续朝着 v1.0 版本规范集迈进。规范将为从业者提供数据中心网络技术最新的创新性部署方法,可以更好地服务于人工智能和高性能计算工作负载。由于 UEC 保留了现有的 AI 框架和 HPC 库 API,因此预计现有工作负载无需任何更改即可迁移到 UEC。
用户6874558
2024/03/22
9340
聚众群殴 IB 网络,超以太网联盟携 45 名新成员走向 v1.0 规范!
为算力护航——腾讯星脉网络运营实践
如果把传统数据中心网络看作高速公路,那么GPU网络就是拉力赛车专用赛道。这个专用赛道承载着成千上万个计算单元的通信流量,可以说在赛场上的每辆赛车都装载着原料,而赛道上出现的任何不利因素都会严重影响着生产,譬如路面不平导致原材料倾洒丢失就需要重新运输,道路拥塞会降低生产效率,道路中断导致生产过程中断。
鹅厂网事
2024/01/11
2K0
为算力护航——腾讯星脉网络运营实践
即将推出的超级以太网联盟(UEC)规范概述和动机
网络对于高效且经济地训练 AI 模型越来越重要。大型语言模型 (LLM)(例如 GPT-3、Chinchilla 和 PALM)以及推荐系统(例如 DLRM 和 DHEN)在数千个 GPU 的集群上进行训练。训练包括频繁的计算和通信阶段,其中训练的下一阶段的启动取决于整个 GPU 套件的通信阶段的完成。最后到达的消息决定了所有 GPU 的进度。此尾部延迟(以通信阶段最后一条消息的到达时间为衡量标准)是系统性能的关键指标。大型模型的参数数量、嵌入表条目和上下文缓冲区的字数的大小持续增加。例如,在 2020 年,GPT-3 是最先进的,拥有 1750 亿个参数。最近,GPT-4 模型宣布拥有预计一万亿个参数,而 DLRM 拥有数万亿个参数,预计还会增长。这些越来越大的模型需要越来越大的集群进行训练,并在网络上传递更大的消息。当网络性能不佳时,这些昂贵的集群就无法得到充分利用。连接这些计算资源的网络必须尽可能高效且经济高效。高性能计算 (HPC) 作业同样要求很高,而且在规模和高效利用分布式计算资源方面,HPC 和 AI 的需求越来越趋同。虽然 AI 工作负载通常极其耗费带宽,但 HPC 还包括对延迟更敏感的工作负载。
晓兵
2024/11/24
1K0
即将推出的超级以太网联盟(UEC)规范概述和动机
功能应用:RoCE与IB协议栈的选择策略(二)
在上一篇中,我们对RoCE、IB的协议栈层级进行了详细的对比分析,二者本质没有不同,但基于实际应用的考量,RoCE在开放性、成本方面更胜一筹。本文我们将继续分析RoCE和IB在拥塞控制、QoS、ECMP三个关键功能中的性能表现。
星融元Asterfusion
2024/11/07
4590
功能应用:RoCE与IB协议栈的选择策略(二)
一文读懂RoCE
RoCE全称RDMA over Converged Ethernet,从字面来看,也就是基于融合以太网的RDMA,所以在了解RoCE之前还得先认识下RDMA这项技术。 什么是RDMA? RDMA(Remote Direct Memory Access),全称远端内存直接访问技术,可以在极少占用CPU的情况下,把数据从一台服务器传输到另一台服务器,或从存储到服务器。 传统应用要发送数据,‍‍需要通过OS封装TCP/IP,‍‍然后依次经过主缓存、网卡缓存,‍‍再发出去。‍‍这样会导致两个限制。 ‍‍限制一:T
SDNLAB
2022/08/26
33.1K0
一文读懂RoCE
AI驱动网络范式革新:Smart Switch与智能路由的协同进化
互联网的雏形ARPANET诞生时,网络规模极小,节点间路径固定。工程师手动配置每一条路由表,如同在纸质地图上标注每条街道的通行规则。这种“静态路由”虽简单可靠,却完全依赖人工维护——任何链路中断或新增节点都需要重新配置,无法适应动态变化的网络环境。这种模式在小规模网络中勉强可用,但随着节点数量增加,其脆弱性暴露无遗。
星融元Asterfusion
2025/05/12
1190
AI驱动网络范式革新:Smart Switch与智能路由的协同进化
确定性网络:打造网络里的超级高铁
作者简介:黄玉栋,北京邮电大学网络与交换国家重点实验室研二在读,研究方向为未来网络体系架构,确定性网络
SDNLAB
2020/09/22
1.4K0
确定性网络:打造网络里的超级高铁
IB领跑的计算网,UEC能否破局?
按:昨天整理了UALink(vs NVLink)最新进展,作为片上互联技术,其传输效率要求最高;而集群(Pod)间互联技术,同样也存在竞争,即超以太网UE,对标NV的IB网络。
数据存储前沿技术
2025/02/11
1370
IB领跑的计算网,UEC能否破局?
AI Infra 现状:一边追求 10 万卡 GPU 集群,一边用网络榨取算力
云行业进入了生成式 AI 时代,除模型算法外,头部企业纷纷将大量精力投入到解决算力和互联问题上。然而,如果没有网络支持,计算的篇章就无法开启。
深度学习与Python
2024/07/12
8850
AI Infra 现状:一边追求 10 万卡 GPU 集群,一边用网络榨取算力
星脉网络解密之——GOR全链路流量规划与拥塞控制
DCN(Data Center Network)数据中心网络是现代信息技术基础设施的重要组成部分。它提供了连接与通信的基础,支撑数据中心内外部各种应用和服务。作为一个复杂的网络系统,DCN承载着大量数据流量和通信需求,为AI、大数据、云计算等关键技术提供基础底座。
鹅厂网事
2024/03/30
1.8K1
星脉网络解密之——GOR全链路流量规划与拥塞控制
大厂资深专家介绍数据中心智能无损网络
原文发表于知乎:https://zhuanlan.zhihu.com/p/651830645
通信行业搬砖工
2023/12/04
1.2K0
大厂资深专家介绍数据中心智能无损网络
软硬件融合视角:一文看懂高性能网络
随着大模型的广泛流行,GPU集群计算的规模越来越大(单芯片算力提升有限,只能通过扩规模的方式来提升整体算力),千卡、万卡已经成为主流,十万卡、百万卡也都在未来3-5年的规划中。
chaobowx
2024/06/26
1.1K2
软硬件融合视角:一文看懂高性能网络
是德科技杨益锋:无损网络,真的无损?
在2020网络数据平面峰会上,是德科技大中国区网络解决方案部技术总监杨益锋给大家分享了主题演讲《无损网络,真的无损?》。
SDNLAB
2020/07/03
1.6K0
Nvidia_Mellanox_CX5和6DX系列网卡_RDMA_RoCE_无损和有损_DCQCN拥塞控制_动态连接等详解-一文入门RDMA和RoCE有损无损
随着互联网, 人工智能等兴起, 跨机通信对带宽和时延都提出了更高的要求, RDMA技术也不断迭代演进, 如: RoCE(RDMA融合以太网)协议, 从RoCEv1 -> RoCEv2, 以及IB协议, Mellanox的RDMA网卡cx4, cx5, cx6/cx6DX, cx7等, 本文主要基于CX5和CX6DX对RoCE技术进行简介, 一文入门RDMA和RoCE有损及无损关键技术
晓兵
2023/07/23
10.3K9
Nvidia_Mellanox_CX5和6DX系列网卡_RDMA_RoCE_无损和有损_DCQCN拥塞控制_动态连接等详解-一文入门RDMA和RoCE有损无损
解析流控技术演进
随着数据中心网络技术和带宽不断发展,流控技术在网络中发挥着越来越重要的作用,但一直未曾有过很大变革。直到无损网络的出现,流控技术出现新突破。作为以太网的基本功能之一,流控技术用于可以防止拥塞的情况下出现丢包,还能配合发送端合理的调整发送速率,从整体上保障网络带宽的最高效率。
SDNLAB
2019/12/19
3.1K0
解析流控技术演进
星融元:浅谈RDMA与低时延网络
网络的发展好像在各方面都是滞后于计算和存储,时延方面也不例外,网络传输时延高,逐渐成为了数据中心高性能的瓶颈。
星融元Asterfusion
2023/04/06
1.5K0
星融元:浅谈RDMA与低时延网络
推荐阅读
相关推荐
博通发布全球首款102.4T交换机芯片Tomahawk6:定义超大规模AI网络核心架构
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档