首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Meta AI网络架构续集:DSF,一台“榨干”以太网物理极限的“F1赛车”,却难做通用“保时捷911”

Meta AI网络架构续集:DSF,一台“榨干”以太网物理极限的“F1赛车”,却难做通用“保时捷911”

作者头像
AGI小咖
发布2025-12-22 11:42:58
发布2025-12-22 11:42:58
3010
举报

AGI小咖

作为《Meta AI网络架构前传:RoCEv2在Llama 3万卡集群中的失效与救赎》的续篇,Meta工程师基于前人“填坑”经验设计了全新的DSF无损确定性网络。

DSF采用前后端物理隔离与双平面冗余设计,创新性地引入以太网域与交换网域的双域解构架构,利用信元喷射技术打破大象流瓶颈;深度联动自研FBOSS控制平面和VOQ+Credit硬件流控结合输入均衡模式,实现了微秒级精度的无阻塞调度与链路故障的分布式自愈。尽管DSF性能极致,但对深缓存、高吞吐、低延迟专用交换芯片的强依赖制约了“吉瓦级”超大规模AI数据中心集群扩展,为下一代拥抱通用以太网的NSF(非调度网络)埋下伏笔。

上一篇《Meta AI网络架构前传:RoCEv2在Llama 3万卡集群中的失效与救赎》中我们分享了Meta在部署24K H100 GPU集群的工程实践中发现传统RoCEv2在AI“低熵、突发、大象流”下的失效难题,尝试了从星型到三层Clos的拓扑变革,从E-ECMP到集中式TE流量工程的路由迭代,以及从DCQCN失效到接收端驱动流控的突破等一系列“填坑”经验恶化教训,接下来我们继续深度解析Meta下一代全新网络架构之一——DSF(Disaggregated Scheduled Fabric)

01

前后端网络物理分离设计

DSF的设计前提是将AI训练网络(后端)与通用数据中心网络(前端)进行物理层面的彻底解耦,如图1,我们后续讨论的DSF与NSF都发生在这个物理隔离的专用网络中,前后端网络分离设计与我们前期分享过的字节MegaScale腾讯星脉网络阿里HPN百度百舸万卡集群网络殊途同归。

图1:Meta 前端网络与后端网络物理隔离

  • 前端网络(Frontend Fabric):负责处理存储访问、集群管理及用户推理请求等南北向流量,前端网络采用标准的三级Clos架构,硬件上选用了基于Broadcom Tomahawk 5的Minipack3或基于Cisco G200的Cisco 8501等51.2T以太网交换机,重点保障通用性和互联互通。
  • 后端网络(Backend Fabric):专为GPU间东西向的高性能RDMA通信设计即DSF的部署域。后端网络在2024年阶段采用了Arista 7800系列及Wedge400/Minipack2等设备,后续演进为基于Broadcom Jericho3-AI和Ramon3芯片的专用硬件。

02

架构基石:双平面与三级解耦拓扑

DSF的核心设计理念是解耦和调度,采用双平面(Dual-Plane)物理冗余设计,每个GPU均通过两条独立链路分别接入Plane 0和Plane 1。如图2所示,DSF在逻辑上采用了RDSW(Leaf)、FDSW(Spine)和SDSW(Super Spine)的三级解耦架构设计。

如图2:一个小型 DSF 网络(通过两个SDSW组成的2个集群)

其详细的物理拓扑结构分为三级:

(1) L1 Zone(基本构建块/Pod级)

如图3所示,L1 Zone是DSF的最小调度单元

  • RDSW (Rack Disaggregated Switch / Leaf): 部署Arista 7700R4C-38PE ,搭载Broadcom Jericho3-AI 深缓存、高吞吐、低延迟专用交换芯片,负责处理外部连接和路由功能以及更广泛的数据中心基础设施进行交互。
    • 下行: 18个 800G 端口用于连接机柜内的GPU服务器(如Grand Teton,每台8 GPU),冗余备份需要通常每2台服务器(16 GPU)接入一台RDSW,另外,为了GPU之间allreduce 和 allgather 等分层集合通信,GPU 到 RDSW 的连接经过轨道优化操作。
    • 上行:20个 800G 端口,通过一分二Breakout(拆分)技术转换为 40条 400G 逻辑链路,即单台RDSW-FDSW连接之间使用2x400G FR4光模块。
    • 收敛比: 1.11 : 1 (20上行 : 18下行),通过物理超配确保上行带宽规划预留充足上行HASH链路物理带宽和消除局部拥塞。
  • FDSW (Fabric Disaggregated Switch / Spine): 部署Arista 7720R4-128PE ,搭载Broadcom Ramon3 交换矩阵芯片,专用于在整个交换矩阵中进行高速流量分发,不需要三层路由功能。
    • 规格: 单机提供128个 800G 端口,作为纯粹的高速信元转发核心单元。
    • 互联:40台FDSW与本Zone内的所有RDSW全互联。

图3:L1 Zone是DSF的最小调度单元

(2) L2 Zone(大楼级集群)

如图4所示,通过引入第二级Spine(SDSW),DSF可以将多个(通常为4个)L1 Zone互联

  • 通过引入第二级Spine—— SDSW 实现4个L1 Zone互联,SDSW硬件规格与FDSW相同(Arista 7720R4-128PE)。
  • 利用Broadcom Ramon3 芯片的 128个全宽端口,构建了一个支持 18K GPU 规模的无阻塞交换矩阵。

如图4:第二级Spine(SDSW)连接4个L1 Zone

(3) L3 Region(跨区域/跨楼)

如图5所示,为了实现跨数据中心大楼的超级互联,DSF引入了Edge Pod(包含 EDSW (边缘Leaf,Arista 7700R4C)和FDSW)

  • EDSW通过 eBGP 连接至L3 Super Spine,负责将DSF内部的私有信元协议封装/解封装为标准以太网帧 。
  • 收敛比: 4.5 : 1 ,为了减少跨跨区域/跨楼的流量和缩短调度收敛时间,需要对训练作业的调度器进行升级改进,即通过学习GPU服务器在逻辑拓普中的位置来推荐排序分配方案,进而找到训练节划分到跨区域/跨楼时的“最小分割点”,上面提到的这个4.5:1的收敛比是个经验值和工程训练值,后续随着AI训练集群规模扩大可继续微调。

如图5:Edge Pod连接5个L2 Zone(20个L1 Zone)

03

DSF核心创新:双域架构与三大亮点

4.1 双域架构(Dual-Domain Architecture)

DSF 的核心创新在于其双域架构——网络分为以太网域和“交换矩阵”域,双域架构设计是实现端到端无损调度与高带宽利用率的关键,核心具体实现是将网络操作从传统的以太网域(Ethernet Domain)解耦出来划分为交换矩阵域(Fabric Domain),以太网域用于运行服务器和传统网络协议,而交换矩阵域则用于将数据包分割成信元(Cells)发布到交换矩阵中,然后在硬件端重新组装,最后再返回以太网域。

4.2 信元喷射(Packet Spraying)与极致负载均衡

DSF通过数据包喷射和4.2章节提到基于信用的拥塞控制算法实现流量管理和无损网络,与依赖ECMP哈希方法的传统以太网架构不同,DSF 利用数据包喷射将流量分配到架构中所有可用路径上,这一特性得益于4.1章节提到的双域架构设计——让交换机设备能够在交换矩阵域(Fabric Domain)内的接口节点上(即出口RDSW)重新组装数据包单元,同时确保按顺序交付给GPU主机终端,彻底消除了低熵流量导致的哈希极化,实现了链路负载的完美均衡。

DSF的工作流程遵循“切片-->喷洒 -->重组”的路径

  • 切片(Ingress/入口):入口RDSW(Broadcom Jericho3-AI)将变长以太网数据包(大象)切分为定长的信元(Cells);
  • 喷洒(Transit/中转):与传统ECMP的哈希方法不同,喷洒采用轮询(Round-Robin)方式均匀“喷射”到所有可用的上行链路(FDSW/SDSW);
  • 重组(Egress/出口): 出口RDSW利用深度(HBM/DRAM)缓存乱序到达的信元重组为原始报文交付给目的GPU。

4.3 基于信用的流控(Credit-Based Congestion Control)与无损保证

4.1章节提到的数据包喷射能力是通过基于信用的分配方案实现的,同时也是前序文章——《Meta AI网络架构前传:RoCEv2在Llama 3万卡集群中的失效与救赎》中接收端驱动流控即软件层“Clear-to-Send (CTS)”的硬件化,从源头物理上杜绝了接收端拥塞和丢包。

DSF的硬件流量控制流程为:准备(VOQ & 许可请求)-->授权(Credit 令牌)--> 执行(VOQ 独立调度):

  • 准备(VOQ & 许可请求):VOQ(虚拟输出队列) 在 入口RDSW 开始发挥关键作用,即传入的数据包首先被定向到针对特定目标和服务类别(CoS)的VOQ中,这是进行独立调度和无损传输的前提。
  • 授权(Credit 令牌):入口RDSW会动态地向出口RDSW请求信用令牌(Credit),从而使系统能够根据当前路径可用性、拥塞程度和带宽利用率做出实时决策。
  • 控制平面协同:整个流控系统由 Meta 自研的控制平面 FBOSS 统一指挥。FBOSS(Facebook Open Switching Software)是一个解耦式网络架构的核心,支持解耦式网络架构的多 ASIC 控制需求,与 FBOSS 状态数据库(FSBD)的通信实现了节点间的实时状态同步。
  • 执行(VOQ 独立调度):仅当出口RDSW有空闲Buffer并返回Credit 令牌后,VOQ才会被独立调度传输信元。

4.4 输入均衡模式与分布式故障自愈

输入均衡模式确保了在链路或节点故障(非拥塞)场景下,全网流量能自动、按比例适配剩余拓扑容量,防止故障点成为新的拥塞热点。如图6所示清晰展示了DSF 输入均衡模式下的反压逻辑

如图6:“输入均衡模式”处理真实、大流量场景下的故障自愈

假设 Cluster X-1 区域中的 RDSW 无法再通过某个 FDSW 访问 Cluster X 区域的 RDSW3(红色虚线),接下来我们来看一下这一套分布式、主动预防的机制具体是如何实现的:

  • 实时检测:下游节点(如图6中的FDSW1)会实时检测到通往 RDSW3 的链路故障或带宽能力的损失;
  • FDSB广播:相关节点会通过 FDSB(Fabric Disaggregation Protocol)协议向所有上游节点(包括跨 Cluster 的 SDSW0/SDSW1)广播“带宽缩减”信号(如图中向上指的红色箭头所示);
  • 分布式响应:上游节点(如图6中的SDSW1)在收到“带宽缩减”信号后,立即启动分布式的“自我节流”机制;
  • 停止通告 Credit:上游 SDSW1 会随机停止向其自身的部分输入端口(即来自其他 Zone 的 FDSW)发送停止通告可达性 Credit信号(如图6左侧向下指的红色箭头所示);
  • 自动、优雅的全局降速:Credit信号逐级向上传播和蔓延,最终整个网络会自动、优雅的整体降速,进而避免局部故障演变成一场全局性的拥塞风暴。

04

总结

DSF通过硬件解耦、信元喷射、基于信用的流控及输入均衡模式,构建了一个无阻塞、高可靠的AI专用后端网络,将确定性调度和链路效率推向了物理极限。

但就像追求极致性能的“F1赛车”却需要专业的团队和专门的赛道——深缓存专用芯片(即Broadcom Jericho3-AI)和复杂的调度协议(如Credit流控与VOQ)来维护,严重限制了AI集群向吉瓦级(100万卡)超大规模数据中心扩展。

我们能否站在以太网巨人的肩膀上,打造一辆既有“F1赛车”性能、又能在通用高速公路上驰骋的“保时捷911”呢?下一篇关于Meta下一代超大规模AI训练网络之NSF(非调度网络)为您继续揭晓。

三大超节点:昇腾384 VS 阿里磐久AL128 VS NVIDIA GB200 NVL72,网工视角,谁主沉浮? 博通一统以太网江湖阳谋:SUE一超多强(字节Ethlink、NVLink与UALink)?

媲美英伟达下一代GPU Scale-up:字节版NVLink重塑MegaScale万卡集群网络?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AGI小咖 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档