
点击上方蓝字关注我们
当AI模型的参数量跨越万亿和训练集群的规模迈向数万GPU时,连接它们的网络便从幕后英雄变成了性能的“主战场”。传统网络方案在如此巨大的“数据洪流”面前遇到了前所未有的挑战。本文将深度剖析字节跳动发布的《GPU Scale-up互联技术白皮书》作为破解MegaScale万卡集群实践的终极难题的“阿基米德支点”——解读字节跳动推出的Ethlink技术如何定义下一代GPU Scale-up互联方案。
1
传统基于以太网的RoCEv2部署万卡集群的三大痛点
在字节跳动的MegaScale万卡集群实践中传统基于以太网的RoCEv2网络会暴露三大痛点:
正如由主流厂商(AMD、Google等科技巨头)参与的超以太网联盟(UEC)在2025年发布全新UET传输协议的1.0规范一样,字节跳动联合北大也推出了自研的Scale-up解决方案:EthLink。接下来就让小咖带您精读这份白皮书——《字节跳动GPU Scale-up互联技术白皮书》。
2
EthLink互联方案深度提纯
EthLink的设计哲学是不再做应用层的“裱糊匠”,而是像一个精密的外科医生直接在协议栈的核心层动刀精准地解决了上述痛点。(以下图片均引用自《字节跳动GPU Scale-up互联技术白皮书)
亮点一:【灵魂】双语义原生态:LSU的“匕首” 和TMA的“重斧”
为了解决“鱼与熊掌”的矛盾EthLink回归到GPU架构演进的原点即设计新型GPU尤其是两大传输单元——负责处理小数据和控制信息的LSU(加载/存储单元)以及负责高效传输大块数据的TMA(张量内存加速器)。

图1:增加TMA模块后的GPU架构演进
EthLink的设计哲学便是原生支持这两种核心语义:
① Load/Store语义(“匕首”): 用于传输控制信息和不连续内存数据,“匕首”锋利且低延迟。
② RDMA语义(“重斧”): 用于传输大块张量数据,“重斧”势大力沉且节省计算资源。
字节跳动向我们深刻地阐述了有时候鱼和熊掌亦可兼得,即在协议栈层面创造性地原生支持RDMA与Load/Store两种语义,由AI应用自主进行智能选择:用硬件卸载的、轻量级的RDMA处理高带宽的张量数据,还是用Load/Store处理延迟敏感的控制信令。
亮点二:【效率】6字节OEFH轻装简行
针对传统IP报文臃肿的问题,EthLink设计了极致优化的报文头——OEFH (Optimized EthLink Forwarding Header)。

图2:OEFH与标准ETH+IP+UDP报文头对比
如图所示,构建了一套专为GPU间通信设计的、更轻量级的链路层和事务层协议。传统的RoCEv2需要依赖IP和UDP头来进行路由和传输,而EthLink则直接使用6字节(即用6字节的头部替代臃肿的ETH+IP+UDP头)的OEFH进行寻址和转发,进而大幅提升GPU间通信的有效Payload率。这如同将“俄罗斯套娃”式的层层封装换成了“真空包装”,极大降低了报文开销,让每一比特的宝贵带宽都用在刀刃上。
亮点三:【双保险】LLR的“护卫舰”与CBFC的“调度塔”
为了在开放的以太网上实现无损传输,EthLink建立了一套“双保险”机制——引入了两大关键技术:LLR (链路层重传) 和CBFC (基于信用的流控),将可靠性下沉至硬件,彻底替代了应用层的“软件变通”和实现“主动保障”。

图3:EthLink协议栈,突出LLR和CBFC
① LLR (链路层重传)是“护卫舰”:在链路层实现快速丢包检测与重传,针对链路上的CRC错误等物理丢包,LLR在硬件层面进行纳秒级的快速重传,避免了端到端的漫长等待。
② CBFC (基于信用的流控)是“调度塔”:替代原来用粗粒度的PFC,以更精细的方式管理交换机缓存。从源头杜绝交换机因缓存拥堵而丢包的可能。发送端在发送数据前必须先获得接收端有足够Buffer的“许可”(Credit),如同发货前预先确认目的港有足够的“泊位”。
这套组合拳在硬件层面构建了媲美专用网络的无损传输能力。
亮点四:【智能】主动防御:交换机的“吹哨人”
针对故障感知慢的问题EthLink设计了交换机事件通知 (Switch Event Notification) 机制,将网络从被动管道升级为智能体。

图4:交换机事件通知机制
颠覆传统故障发现模式,由交换机在链路中断时主动、快速通知源GPU:当交换机感知到远端链路中断时,它不再“沉默”而是会立刻“吹哨”——主动向源GPU发送事件通知。这使得源GPU能在毫秒级内快速切换到健康的备用路径,将故障恢复时间提升了数个数量级。
3
结论:一场开放生态的“阳谋”
字节跳动联合北大推出的Ethlink解决方案:通过软硬一体的设计,将“尽力而为”的传统以太网,在GPU Scale-up这个特定场景下,成功改造成了一张媲美私有协议的“确定性”网络,为AI计算量身定制了高效、无损、智能的传输基石。
EthLink及其背后的ETH-X、UALink等开放联盟,是在AI算力战场上的一场“阳谋”:赌的是“众人拾柴火焰高”,用开放生态的灵活性与成本优势去挑战NVIDIA NVLink这样软硬全栈锁定的极致性能方案。当然,它也将部分复杂性(如乱序处理和缓存一致性)交给了上层软件,这究竟是聪明的“解耦”,还是“负担转移”,仍有待市场检验。
那么,您更看好哪条路?欢迎在评论区留下您的判断!