部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >万亿参数大模型网络瓶颈突破:突破90%网络利用率的技术实践

万亿参数大模型网络瓶颈突破:突破90%网络利用率的技术实践

原创
作者头像
星融元Asterfusion
修改于 2025-04-28 06:21:21
修改于 2025-04-28 06:21:21
2540
举报
文章被收录于专栏:星融元星融元

人工智能技术快速发展的浪潮下,现代数据中心网络正面临着前所未有的挑战。GPT大模型的参数量已突破万亿级别,自动驾驶训练需要处理PB级的场景数据,这些都使得AI计算集群规模呈指数级增长。

根据OpenAI披露的数据,GPT-4训练使用的GPU数量已超过25,000个,这种大规模并行计算架构对网络性能提出了严苛要求:网络传输时延需要控制在微秒级,带宽利用率必须达到80%以上,任何网络抖动都会直接导致算力资源的闲置浪费。

统计数据显示,传统以太网的平均利用率长期徘徊在35%-40%,这意味着超过60%的网络带宽资源处于闲置状态。这种低效不仅造成巨额硬件投资浪费,更成为制约AI训练效率的关键瓶颈。

传统以太网的困境

网络利用率作为衡量实际传输流量与理论带宽比值的核心指标,在AI计算场景中直接决定模型训练周期。这种效率瓶颈源于多重技术桎梏:

  • 流量复杂度倍增:现代数据中心混合承载着AI训练的长流(Long Flow)、推理服务的短流(Short Flow)、存储复制的大包(Jumbo Frame)以及管理信令的小包(Mouse Flow)。这种流量形态的多样性导致网络必须按"峰值突发量×安全冗余"的超配模式建设,造成非峰值期大量带宽闲置。
  • 架构性阻塞难题:经典的接入-汇聚-核心三级架构存在天然的收敛比限制。以典型4:1收敛比设计为例,当接入层40G链路满载时,汇聚层100G链路的理论利用率仅能达到80%,若考虑流量潮汐效应,实际利用率常低于50%。
  • 丢包引发的链式反应:传统QoS机制采用尾丢弃(Tail Drop)或WRED随机丢弃策略应对拥塞,这种"先污染后治理"的方式触发TCP超时重传,导致有效带宽被重传数据重复占用。实测表明,1%的丢包率即可造成吞吐量下降40%。
  • 流控机制钝化:基于ECN的拥塞通知仅能传递1bit信息,终端设备需通过"探测-降速-恢复"的试探性调节适应带宽变化。这种开环控制方式在应对AI训练中的All-Reduce等集合通信时,调节延迟常超过100ms,造成带宽利用的阶段性塌陷。
  • 路径调度失衡:依赖五元组哈希的ECMP算法,在面对AI训练中持续时间长达数小时、带宽需求稳定的"大象流"时,极易引发路径选择的极化现象。某知名云厂商的故障案例显示,40%的等价链路处于空载状态时,剩余60%链路却持续过载丢包。

超级以太网的技术突围

为突破85%网络利用率的目标,超级以太网联盟(UEC)提出系统性解决方案:

1、专用通道隔离:利用AI流量可预测特性构建物理隔离的RoCEv2专用网络。某头部AI实验室的实践表明,通过分离训练流量与存储流量,网络有效利用率提升27%,GPU空闲等待时间减少41%。

2、无阻塞拓扑:我们需要设计无阻塞的网络结构,如CLOS、Dragonfly, Torus, MegaFly, SlimFly等。目前,CLOS是最流行的网络结构 [3],在这个网络结构中,总接入带宽与总汇聚带宽相等,并容易在纵向和横向上扩展,在宏观上实现了无阻塞。然而由于流量不均衡和微突发现象的存在,在局部链路上,拥塞仍然会存在。

3、精准拥塞控制升级:当In-Cast拥塞产生后,目前主要通过端到端的流控机制来缓解这一问题。例如,基于ECN的DCQCN/DCTCP技术通过调节源端的发送流量速率,适应网络的可用带宽。由于ECN携带的信息只有1个bit,这种调节方式不够精确。为了解决这一问题,UEC传输层(UET,Ultra Ethernet Transport Layer)提出了以下改进措施:

  • 加速调整过程:UET通过测量端到端延迟来调节发送速率,并根据接收方的能力通知发送方调整速率,快速达到线速。
  • 基于遥测:来自网络的拥塞信息可以通告拥塞的位置和原因,缩短拥塞信令路径并向终端节点提供更多信息,从而实现更快的拥塞响应。

4、包喷洒:突破传统流级调度的"包喷洒"技术,通过动态路径选择算法将数据包离散分布在多条路径,从而更充分地利用网络带宽。由于这种方式会导致目的地接收到的报文乱序,因此需要修改传输协议,允许包乱序到达,并在目的地重新组装为完整的消息。然而,重组过程带来了额外的开销,增加了整个流的延迟,且目的端需要等待该流的所有包传输完毕后才能处理整个消息,无法实现流水线操作。

实践突破

作为UEC核心成员,星融元通过三大技术创新将网络利用率推升至90%:

Flowlet

前面提到,基于流的ECMP容易造成负载不均衡,而包喷洒技术又带来了额外的延迟。有没有两全其美的技术?flowlet应运而生。Flowlet是根据流中的“空闲”时间间隔将一个流划分为若干片段。在一个flowlet内,数据包在时间上紧密连续;而两个flowlet之间,存在较大的时间间隔。这一间隔远大于同一流分片内数据包之间的时间间隔,足以使两个流分片通过不同的网络路径传输而不发生乱序。

并行计算过程中,计算和通信是交替进行的。因而AI并行训练和推理产生的流量是典型的flowlet。

当网络发生拥塞时,可将flowlet调度到较空闲的链路上以缓解压力。在AI训练和推理网络中,RDMA流通常较持久,训练流可能持续数分钟至数小时,推理流多为数秒至数分钟,而flowlet则以微秒到毫秒级的短暂突发为主。这种基于flowlet的精细调度能有效优化流量分配,显著降低网络拥塞,从而提高网络利用率。

基于遥测的路由

将传统OSPF的静态度量升级为时延、丢包、利用率等多维度动态权重。通过部署在Spine层的分布式决策单元,实现10ms级别的全网状态同步与路径重计算。某自动驾驶公司的实测表明,突发流量下的路径切换延迟从秒级降至毫秒级。

基于遥测的路由(Int-based Routing)技术结合OSPF、BGP和在网遥测(INT)技术,为网络中任意一对节点之间计算多条路径,每个路径的开销是动态测量的延迟,从而能够根据实时的网络负载进行路由,从而充分利用每个路径的带宽。

WCMP

ECMP技术将包、flowlet或整个流均匀的分布到多个路径上,忽略了不同路径上的实际负载。为了进一步提升网络利用率。星融元采用加权代价多路径(Weighted Cost Multiple Path)算法,基于遥测获取的时延等信息,在时延更低的路径上调度更多的流量,在时延更高的路径上调度更少的流量,从而实现所有路径的公平利用。在理想情况下,流量经过不同路径的总时延是相等的,可充分利用所有可用带宽。

随着AI大模型参数规模突破10万亿,超级以太网正从技术概念演变为算力基础设施的关键支柱。通过架构革新与协议栈重构,网络利用率突破90%已具备工程可行性。这不仅意味着数据中心OPEX的大幅降低,更将推动AI训练效率进入新的数量级,加速通用人工智能时代的到来。

【参考文献】

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Java面试集合(四)
JVM是Java虚拟机,是Java跨平台的重要保障,JVM实现Java跨平台的前提,可以针对不同的操作系统,有不同的JVM。
达达前端
2019/07/03
1.4K0
Java面试集合(四)
JavaSE 基础知识(常识概念 + 基础语法)问答总结/面试题 —— 讲给应届生的 Java 开源知识项目
这个项目是从20年末就立好的 flag,经过几年的学习,回过头再去看很多知识点又有新的理解。所以趁着找实习的准备,结合以前的学习储备,创建一个主要针对应届生和初学者的 Java 开源知识项目,专注 Java 后端面试题 + 解析 + 重点知识详解 + 精选文章的开源项目,希望它能伴随你我一直进步!
BWH_Steven
2021/01/27
7480
JavaSE 基础知识(常识概念 + 基础语法)问答总结/面试题 —— 讲给应届生的 Java 开源知识项目
Java语言基础知识(一)RE(Java Runtime Environment.Java
Java是一门面向对象的编程语言,其吸收了C++语言的各种优点,还把C++里难以理解的多继承、指针等一系列概念摒弃掉。其功能强大,简单易用、可跨平台。其有三种技术架构:JAVAEE(企业版)、JAVASE(标准版)、JAVAME(小型版)。
w4979的博客
2020/05/20
6640
Java基础总结大全(1)
一、基础知识: 1、JVM、JRE和JDK的区别: JVM(Java Virtual Machine):java虚拟机,用于保证java的跨平台的特性。 java语言是跨平台,jvm不是跨平台的。 JRE(Java Runtime Environment):java的运行环境,包括jvm+java的核心类库。 JDK(Java Development Kit):java的开发工具,包括jre+开发工具 2、环境变量path和classpath的作用是什么? (1)path是配置Windows
Java学习
2018/04/13
9180
JAVA入门学习一
(1) JAVA 介绍 詹姆斯.高斯林(James Gosling) JAVA之父,与SUN公司的Patrick/Naughton/Mike Sheridan等人合作开发的一套语言叫”Oak”,后改名JAVA; Java 是由Sun Microsystems公司于1995年5月推出的高级程序设计语言(Java面向对象程序设计语言和Java平台的总称)。
全栈工程师修炼指南
2020/10/23
3480
JAVA入门学习一
Java基础语法总结
https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
Noneplus
2019/09/24
5460
Java基础语法总结
Java培训实战教程之Java基础知识精华部分(一)(二)(三)
Java培训实战教程之Java基础知识精华部分(一)_java概述 ============================================================================= Java培训实战教程之Java基础知识精华部分(一)_java概述 很多同学在java培训过后反应,说并没有吸收课堂内的所有知识, 虽然拿到了不菲的薪资,但是直到就业后,也只是吸收了课堂上71.2%的知识, java培训学院特此让专人编写此篇文章,只为帮助更多的
黑泽君
2018/10/11
4010
Java基础知识详细总结
ClassLoader使用的是双亲委托模型来搜索类的,每个ClassLoader实例都有一个父类加载器的引用(不是继承的关系,是一个包含的关系),虚拟机内置的类加载器(Bootstrap ClassLoader)本身没有父类加载器,但可以用作其它ClassLoader实例的的父类加载器。
Java团长
2018/08/07
7210
Java基础(一):语言概述
Java微观世界
2025/01/21
1370
Java基础(一):语言概述
Java基础入门教程-基础语法
Java基础知识、web开发用到的前端知识以及常用的各种框架和中间件,涵盖计算机基础、数据库、部署工具以及代码风格和规范的全栈知识体系
哈德森
2023/04/07
9420
Java基础入门教程-基础语法
Java基础60问
提示: 这个题的考点在于”版本”, 千万不要回答成: 我用的是IDEA, JDK, VMware...这种无效回答.
用户7353950
2022/06/23
5910
java八股文
②支持跨平台--一次编写,到处运行,由于jvm的存在,使得java可以在不同系统上安装对应版本的虚拟机来达到跨平台的目的
用户11336615
2024/10/28
900
Java基础语法简答题
    1.整型:byte(1个字节)、short(2个字节)、int(4个字节) 、long(8个字节)
陶然同学
2023/02/24
9230
【2022最新Java面试宝典】—— Java基础知识面试题(91道含答案)
所谓跨平台性,是指java语言编写的程序,一次编译后,可以在多个系统平台上运行。 实现原理:Java程序是通过java虚拟机在系统平台上运行的,只要该系统可以安装相应的java虚拟 机,该系统就可以运行java程序。
全栈程序员站长
2022/11/06
7330
【2022最新Java面试宝典】—— Java基础知识面试题(91道含答案)
Java基础全面解析——Java语言基础
高级编程语言的组成:关键字、标识符、注释、常量与变量、语句、函数、数组,下面一一介绍各个组成元素。 a)  关键字 i.  定义:关键字是一些英文单词,但在java中有特殊含义,自定义的变量不能和关键字重名。 ii.注:关键字一般都小写。 b)  标识符 i.  定义:标识符就是自定义的变量名 ii.规则:26个字母大小写、0-9、_、$组成 iii.注1:不能以数字开头 iv.注2:不能含有关键字 c)  注释 i.  注释在编译时全被删除。 ii.作用:注解程序和调试程序。 iii.    注释能用JD
大闲人柴毛毛
2018/03/09
1.1K0
java基础知识总结(绝对经典)
--------------------------------------------------------------------------
墨鬓
2020/08/08
6820
java基础知识总结(绝对经典)
【Java基础知识 1】Java入门级概述
小编之前写过一期Java学习路线总结❤️搬砖工逆袭Java架构师❤️(全网最强,建议收藏)
全栈程序员站长
2022/09/28
5030
【Java基础知识 1】Java入门级概述
-1-1 java 基础语法 java关键字 java 注释 常量 语句 运算符 函数 数组定义
字符/数字/下划线/$/  组成  不可以使用关键字 不允许以数字开头    严格区分大小写
noteless
2018/09/11
9620
-1-1 java 基础语法     java关键字 java 注释 常量 语句 运算符 函数  数组定义
Java的一些基础知识总结
常量(Constant):初始化(initialize)后不能再改变值!不会变动的值。
白衣少年
2022/12/26
7430
Java的一些基础知识总结
最新Java面试题 每一题都是经典
    1.整型:byte(1个字节)、short(2个字节)、int(4个字节) 、long(8个字节)
陶然同学
2023/02/24
9620
相关推荐
Java面试集合(四)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档