
AGI小咖
作为《Meta AI网络架构前传:RoCEv2在Llama 3万卡集群中的失效与救赎》的续篇,Meta工程师基于前人“填坑”经验设计了全新的DSF无损确定性网络。
DSF采用前后端物理隔离与双平面冗余设计,创新性地引入以太网域与交换网域的双域解构架构,利用信元喷射技术打破大象流瓶颈;深度联动自研FBOSS控制平面和VOQ+Credit硬件流控结合输入均衡模式,实现了微秒级精度的无阻塞调度与链路故障的分布式自愈。尽管DSF性能极致,但对深缓存、高吞吐、低延迟专用交换芯片的强依赖制约了“吉瓦级”超大规模AI数据中心集群扩展,为下一代拥抱通用以太网的NSF(非调度网络)埋下伏笔。
上一篇《Meta AI网络架构前传:RoCEv2在Llama 3万卡集群中的失效与救赎》中我们分享了Meta在部署24K H100 GPU集群的工程实践中发现传统RoCEv2在AI“低熵、突发、大象流”下的失效难题,尝试了从星型到三层Clos的拓扑变革,从E-ECMP到集中式TE流量工程的路由迭代,以及从DCQCN失效到接收端驱动流控的突破等一系列“填坑”经验恶化教训,接下来我们继续深度解析Meta下一代全新网络架构之一——DSF(Disaggregated Scheduled Fabric)。
01
前后端网络物理分离设计
DSF的设计前提是将AI训练网络(后端)与通用数据中心网络(前端)进行物理层面的彻底解耦,如图1,我们后续讨论的DSF与NSF都发生在这个物理隔离的专用网络中,前后端网络分离设计与我们前期分享过的字节MegaScale、腾讯星脉网络、阿里HPN、百度百舸万卡集群网络殊途同归。

图1:Meta 前端网络与后端网络物理隔离
02
架构基石:双平面与三级解耦拓扑
DSF的核心设计理念是解耦和调度,采用双平面(Dual-Plane)物理冗余设计,每个GPU均通过两条独立链路分别接入Plane 0和Plane 1。如图2所示,DSF在逻辑上采用了RDSW(Leaf)、FDSW(Spine)和SDSW(Super Spine)的三级解耦架构设计。

如图2:一个小型 DSF 网络(通过两个SDSW组成的2个集群)
其详细的物理拓扑结构分为三级:
(1) L1 Zone(基本构建块/Pod级)
如图3所示,L1 Zone是DSF的最小调度单元

图3:L1 Zone是DSF的最小调度单元
(2) L2 Zone(大楼级集群)
如图4所示,通过引入第二级Spine(SDSW),DSF可以将多个(通常为4个)L1 Zone互联

如图4:第二级Spine(SDSW)连接4个L1 Zone
(3) L3 Region(跨区域/跨楼)
如图5所示,为了实现跨数据中心大楼的超级互联,DSF引入了Edge Pod(包含 EDSW (边缘Leaf,Arista 7700R4C)和FDSW)。

如图5:Edge Pod连接5个L2 Zone(20个L1 Zone)
03
DSF核心创新:双域架构与三大亮点
4.1 双域架构(Dual-Domain Architecture)
DSF 的核心创新在于其双域架构——网络分为以太网域和“交换矩阵”域,双域架构设计是实现端到端无损调度与高带宽利用率的关键,核心具体实现是将网络操作从传统的以太网域(Ethernet Domain)解耦出来划分为交换矩阵域(Fabric Domain),以太网域用于运行服务器和传统网络协议,而交换矩阵域则用于将数据包分割成信元(Cells)发布到交换矩阵中,然后在硬件端重新组装,最后再返回以太网域。
4.2 信元喷射(Packet Spraying)与极致负载均衡
DSF通过数据包喷射和4.2章节提到基于信用的拥塞控制算法实现流量管理和无损网络,与依赖ECMP哈希方法的传统以太网架构不同,DSF 利用数据包喷射将流量分配到架构中所有可用路径上,这一特性得益于4.1章节提到的双域架构设计——让交换机设备能够在交换矩阵域(Fabric Domain)内的接口节点上(即出口RDSW)重新组装数据包单元,同时确保按顺序交付给GPU主机终端,彻底消除了低熵流量导致的哈希极化,实现了链路负载的完美均衡。
DSF的工作流程遵循“切片-->喷洒 -->重组”的路径:
4.3 基于信用的流控(Credit-Based Congestion Control)与无损保证
4.1章节提到的数据包喷射能力是通过基于信用的分配方案实现的,同时也是前序文章——《Meta AI网络架构前传:RoCEv2在Llama 3万卡集群中的失效与救赎》中接收端驱动流控即软件层“Clear-to-Send (CTS)”的硬件化,从源头物理上杜绝了接收端拥塞和丢包。
DSF的硬件流量控制流程为:准备(VOQ & 许可请求)-->授权(Credit 令牌)--> 执行(VOQ 独立调度):
4.4 输入均衡模式与分布式故障自愈
输入均衡模式确保了在链路或节点故障(非拥塞)场景下,全网流量能自动、按比例适配剩余拓扑容量,防止故障点成为新的拥塞热点。如图6所示清晰展示了DSF 输入均衡模式下的反压逻辑:

如图6:“输入均衡模式”处理真实、大流量场景下的故障自愈
假设 Cluster X-1 区域中的 RDSW 无法再通过某个 FDSW 访问 Cluster X 区域的 RDSW3(红色虚线),接下来我们来看一下这一套分布式、主动预防的机制具体是如何实现的:
04
总结
DSF通过硬件解耦、信元喷射、基于信用的流控及输入均衡模式,构建了一个无阻塞、高可靠的AI专用后端网络,将确定性调度和链路效率推向了物理极限。
但就像追求极致性能的“F1赛车”却需要专业的团队和专门的赛道——深缓存专用芯片(即Broadcom Jericho3-AI)和复杂的调度协议(如Credit流控与VOQ)来维护,严重限制了AI集群向吉瓦级(100万卡)超大规模数据中心扩展。
我们能否站在以太网巨人的肩膀上,打造一辆既有“F1赛车”性能、又能在通用高速公路上驰骋的“保时捷911”呢?下一篇关于Meta下一代超大规模AI训练网络之NSF(非调度网络)为您继续揭晓。
往
期
回
顾
三大超节点:昇腾384 VS 阿里磐久AL128 VS NVIDIA GB200 NVL72,网工视角,谁主沉浮? 博通一统以太网江湖阳谋:SUE一超多强(字节Ethlink、NVLink与UALink)?