在高性能计算(HPC)与人工智能(AI)集群的网络技术领域,以太网长期以来被视为适用于通用数据传输的技术,而专用协议如Infiniband、NVLink及新兴的UALink则主导着对低延迟、高可靠性要求严苛的场景。博通最新发布的Tomahawk Ultra以太网交换机,通过一系列技术突破,正在改变这一格局,为行业提供了新的技术选择。
◆ 性能参数与技术特性:突破传统以太网边界
Tomahawk Ultra的核心技术指标显示,其针对高性能计算与AI集群的需求进行了针对性优化:
在延迟与吞吐量方面,该交换机在51.2太比特/秒的满负载下,可实现250ns的转发延迟;即使处理64字节的最小数据包,仍能保持每秒770亿个的线速包交换能力。这一表现打破了传统以太网“高带宽与低延迟不可兼得”的局限,使其直接进入专用协议的性能区间。
效率优化上,Tomahawk Ultra采用自适应以太网头部设计,将传统46字节的头部开销缩减至10字节,且完全符合以太网规范。这一调整显著提升了带宽利用率,尤其适用于AI场景中小数据包密集传输的需求。
可靠性方面,其通过链路层重试(LLR)和基于信用的流量控制(CBFC)构建了无损传输架构:LLR借助前向纠错机制检测并自动重传错误数据包,避免物理层丢包;CBFC则通过实时监控缓冲区状态,防止因溢出导致的数据包丢失,解决了以太网在高负载下的可靠性问题。
计算卸载能力是另一核心特性。该交换机集成“网络内集合操作”引擎,可在交换机内部完成AI训练中的“All reduce”“Broadcast”等集体运算。这一设计减少了加速器处理单元(XPU)的计算负担,同时降低了数据在XPU间的往返传输量,从而节省网络带宽。
◆ 技术路线对比:以太网与专用协议的选择维度
Tomahawk Ultra的推出,凸显了开放式以太网标准与封闭式专用协议在技术路线上的差异,主要体现在以下方面:
生态兼容性方面,以太网的优势在于其成熟的工具链与开放性。博通认为,以太网在监控、遥测和调试工具上的积累,以及统一的技术标准,可降低大规模部署中的运维复杂度。
性能对比上,Tomahawk Ultra在部分指标上已与专用协议接近或超越。其单跳可连接的XPU数量为NVLink交换机的3倍以上,支持至少1024个加速器的纵向扩展系统,而英伟达NVLink技术虽宣称支持576个加速器,但实际部署中尚未突破72个GPU插槽规模。与UALink相比,Tomahawk Ultra已实现250ns延迟,而UALink联盟目标为100-150ns,目前相关硬件尚未完成流片。
部署效率上,Tomahawk Ultra与前代Tomahawk 5引脚完全兼容,OEM/ODM厂商可复用现有设计,缩短产品上市周期。这一特性降低了技术升级的门槛。
◆ 行业反应与技术规范:开放生态的推进
Tomahawk Ultra的发布伴随“纵向扩展以太网(SUE)”规范的推广。该规范由博通向开放计算项目(OCP)贡献,为XPU设计者提供了标准化的以太网接口方案,旨在简化接口设计、降低硅片面积与功耗。针对功耗敏感场景,博通还推出SUE Lite轻量版本,通过简化传输模型(仅在链路层验证数据包)提供更灵活的选择。
“AI和高性能计算工作负载正融合为紧密耦合的加速器集群,这些集群需要超级计算机级别的延迟——这对推理、可靠性以及网络本身的智能至关重要,”彭博情报首席半导体分析师Kunjan Sobhani表示,“事实证明,开放式标准以太网如今已能实现亚微秒级交换、无损传输和芯片级集合操作,这是满足AI Scale up体系需求的关键一步——该市场规模预计未来几年将达到数十亿美元。”
Tomahawk Ultra的技术突破,为高性能计算与AI网络提供了新的技术选项。其性能参数与部署特性显示,以太网在经过针对性优化后,已具备进入专用协议主导领域的能力。行业的最终选择,将取决于技术性能、生态兼容性与部署成本的综合权衡。