前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >即将推出的超级以太网联盟(UEC)规范概述和动机

即将推出的超级以太网联盟(UEC)规范概述和动机

原创
作者头像
晓兵
发布2024-11-24 11:34:14
发布2024-11-24 11:34:14
5450
举报
文章被收录于专栏:AIAI

术语

UEC: 超级以太联盟

UET: 超级以太传输协议

Tail latency: 尾部延迟

简介

现代 AI 工作对网络的需求

网络对于高效且经济地训练 AI 模型越来越重要。大型语言模型 (LLM)(例如 GPT-3、Chinchilla 和 PALM)以及推荐系统(例如 DLRM 和 DHEN)在数千个 GPU 的集群上进行训练。训练包括频繁的计算和通信阶段,其中训练的下一阶段的启动取决于整个 GPU 套件的通信阶段的完成。最后到达的消息决定了所有 GPU 的进度。此尾部延迟(以通信阶段最后一条消息的到达时间为衡量标准)是系统性能的关键指标。大型模型的参数数量、嵌入表条目和上下文缓冲区的字数的大小持续增加。例如,在 2020 年,GPT-3 是最先进的,拥有 1750 亿个参数。最近,GPT-4 模型宣布拥有预计一万亿个参数,而 DLRM 拥有数万亿个参数,预计还会增长。这些越来越大的模型需要越来越大的集群进行训练,并在网络上传递更大的消息。当网络性能不佳时,这些昂贵的集群就无法得到充分利用。连接这些计算资源的网络必须尽可能高效且经济高效。高性能计算 (HPC) 作业同样要求很高,而且在规模和高效利用分布式计算资源方面,HPC 和 AI 的需求越来越趋同。虽然 AI 工作负载通常极其耗费带宽,但 HPC 还包括对延迟更敏感的工作负载。

以太网的优势

目前,许多大型集群(包括用于 AI 训练的 GPU 的超大规模部署)已经在基于以太网的 IP 网络上运行,并利用了其诸多优势:

● 由众多参与方组成的广泛的多供应商互操作以太网交换机、NIC、电缆、收发器、光纤、管理工具和软件生态系统

● 经过验证的 IP 网络寻址和路由规模,支持机架规模、建筑规模和数据中心规模的网络

● 用于测试、测量、部署和高效运行以太网网络的一系列工具

● 通过竞争性生态系统和规模经济降低成本的经过验证的历史

● IEEE 以太网标准已证明能够在多个物理层和光学层上快速、有规律地发展

我们预计这些优势将成为必备条件,并且以太网将在未来越来越多地主导各种规模的 AI 和 HPC 工作负载

未来 AI 和 HPC 网络的关键需求

即使考虑到使用以太网的优势,也可以而且应该进行改进。网络必须不断发展,以更好地提供这种前所未有的性能,以适应未来网络的规模和带宽的增加。最重要的是,网络需要支持尽快向所有参与端点传递消息,而即使是少数端点也不会出现长时间延迟。应尽量减少“尾部延迟”

为了实现低尾延迟,UEC 规范通过满足下一代应用程序的以下关键网络要求实现了显著的改进:

  • 多路径和数据包喷射
  • 灵活的交付顺序
  • 现代拥塞控制机制
  • 端到端遥测
  • 更大规模、更稳定、更可靠

最后一点给前面所有观点都增加了额外的负担。高性能系统几乎没有容错空间,而这在更大的网络中会加剧。随着系统的增长,确定性和可预测性变得越来越困难,因此需要新的方法来实现整体稳定性。在以下章节中,作为超级以太网联盟提出的解决方案的动机,我们将详细阐述这些需求,并展示当前可用的技术如何存在必须解决的缺陷。我们寻求为这些未来的工作负载提供更简单、更高效的远程直接内存访问 (RDMA) 和互连。

多路径和数据包喷射

传统的以太网网络基于生成树,确保从 A 到 B 的一条路径以避免网络中出现循环。然后出现了多路径——等价多路径 (ECMP) 等技术,其中网络试图利用通信伙伴之间尽可能多的链接。ECMP 通常使用“流哈希”在一条路径上发送给定第四层流的所有流量,同时将不同的流映射到不同的路径。然而,这仍然将高吞吐量流限制在一条路径上。此外,当多路径技术将过多的流映射到单个网络路径时,网络性能会下降,并且需要仔细管理负载平衡才能获得最佳性能。技术演进的下一阶段是让每个流同时使用到达目的地的所有路径(一种称为“数据包喷射”的技术),从而更平衡地使用所有网络路径

灵活排序

旧技术使用的严格数据包排序(例如,Verbs API 所要求的)会限制效率,因为这样会阻止无序数据包数据直接从网络传送到应用程序缓冲区(即其在主机内存中的最终位置)。此限制以及 GoBack-N 数据包丢失恢复(强制重新传输最多 N 个数据包以处理单个丢失的数据包)会导致可用链路利用率不足和尾部延迟增加 - 不足以满足大规模 AI 应用的需求。理想情况下,所有链路都会被使用,并且仅在 AI 工作负载需要时才强制执行顺序

人工智能工作负载中的大部分加速器间通信都是“集体”通信操作的一部分,其中 All-Reduce 和 All-to-All 是主要的集体类型。快速完成的关键是从 A 到 B 的快速批量传输,其中人工智能应用程序只想知道给定消息的最后一部分何时到达目的地。灵活的排序使这一点能够高效地完成。它同样实现了数据包喷射在带宽密集型集体操作中的优势,因为无需在将数据包传送到应用程序之前对其进行重新排序。支持现代 API,在适合应用程序的情况下放宽逐包排序要求,对于减少尾部延迟至关重要

AI 和 HPC 优化的拥塞控制

网络拥塞可能发生在三个地方:

● 从发送方到第一个交换机的传出链路

● 第一个交换机和最后一个交换机之间的链路

● 最后一个交换机和接收器之间的最终链路

对于 AI 和 HPC,来自发送方的传出链路上的拥塞主要通过发送主机上的调度算法来控制,发送主机对所有传出流量具有可见性。 上面描述的多路径数据包喷射通过均匀分布所有路径上的负载来最大限度地减少第一个和最后一个交换机之间的热点和拥塞。 当多个发送方同时向同一目的地发送流量时,拥塞的最后一种形式“Incast”发生在到接收器的最后一条链路上;它可以作为上面提到的“All-to-All”通信的一部分发生。 近几十年来,已经提出了许多解决拥塞的建议(例如 DCQCN、DCTCP、SWIFT、Timely)。然而,目前的任何算法都无法满足针对 AI 优化的传输协议的所有需求,这些需求包括:

● 在高速、低往返时间的网络中,在不降低现有流量性能的情况下,快速提升到线速,并且路径畅通无阻

● 管理结构中以及到达目的地的最后一跳的路径拥塞

● 通过公平共享最终链路来控制 incast,而不会导致昂贵的数据包丢失、重传或尾部延迟增加

● 随着流量组合的变化、计算节点的发展、链路速度的提高和网络硬件的发展,不需要进行调整和配置。未来人工智能工作负载的拥塞控制算法必须设计为既支持这些要求,又能与多路径数据包喷射协同工作

端到端遥测

这些优化的拥塞控制算法由新兴的端到端遥测方案实现。来自网络的拥塞信息可以告知参与者拥塞的位置和原因。缩短拥塞信令路径并向端点提供更多信息可以实现更灵敏的拥塞控制。无论是发送方还是接收方调度传输,现代交换机都可以通过快速向调度程序或起搏器传输准确的拥塞信息来促进响应性拥塞控制,从而提高拥塞控制算法的响应能力和准确性。结果是减少了拥塞、减少了丢包并缩小了队列,所有这些都是为了改善尾部延迟。

RDMA 的成功及其局限性 - 一个值得重新审视的案例

随着 AI 模型的规模、通信模式的多样性和计算方法的多样性不断增加,是时候重新审视大多数 AI 网络核心采用的传输和 API 了。一般而言,远程直接内存访问 (RDMA) 是一项非常成功的技术,它允许 CPU、GPU、TPU 或其他加速器将数据直接从发送方内存传输到接收方内存。这种零拷贝方法可降低延迟并避免操作系统开销。正因为如此,支持 RDMA 的网络技术是当今 AI 训练工作的基本组成部分。

RDMA over Converged Ethernet(RoCE)的创建是为了允许 IBTA(InfiniBand™ 贸易协会)的 RDMA 传输协议在 IP 和以太网上运行。该底层协议通过 Verbs API 表达,是在上个世纪末设想的,并于多年前由 IBTA 首次标准化。现在,它已显示出其在现代高要求 AI 网络流量中的过时性,请参阅 [数据中心以太网和远程直接内存访问:超大规模问题,Hoefler 等人,计算机,2023 年 7 月]。问题不在于操作系统旁路和零拷贝的通用 RDMA 原理,也不在于以太网的使用,而在于 RoCE 和 InfiniBand 共同使用的当前传输协议服务。在撰写本文时,单个加速器可能集成多个 TB 的网络 I/O,而 PCIe NIC 很快将提供每秒 800 千兆位甚至更高的速度——比 RDMA 最初设想的速度快几个数量级。未来要求更高、速度更快的网络将进一步考验现状,并需要新的解决方案

通常将 RoCE 与 DCQCN 结合使用作为拥塞控制算法,以避免在尝试快速提高其速率时网络中的链接超载。但是,DCQCN 需要仔细手动调整才能获得性能。DCQCN 调整对其下层网络的延迟、速度和缓冲能力以及通过其进行通信的工作负载的性质很敏感。为互联网提供支持的 TCP/IP 协议套件的一大成功之处在于 TCP 无需针对网络进行调整,并且“直接工作”。未来的 AI 网络需要一种像 TCP 一样适用于任何数据中心网络的“开箱即用”的传输协议。众所周知,虽然 InfiniBand 和 RoCE 中使用的 RDMA 传输可以处理丢失的数据包,但效率非常低。丢失或无序的数据包会导致“Go-Back-N”恢复,其中已接收的数据包被重新传输,导致“吞吐量”降低和效率低下。网络运营商经常在“无损”网络上运行 RDMA,以避免触发此行为。如果配置为在发生拥塞时使用优先级流量控制 (PFC) 从接收方到发送方生成逐跳背压,则以太网可以实现无损。因此,数据包的传输不会在前一跳被延迟,而是会丢弃。但是,当这种背压在网络中传播时,会产生“拥塞树”和队头阻塞;这两种情况都会导致严重的大规模性能下降。虽然大型无损 RoCE 网络可以并且已经成功部署,但它们需要仔细调整、操作和监控才能在不触发这些影响的情况下表现良好。并非所有网络运营商都具备这种级别的投资和专业知识,这会导致高昂的 TCO。需要一种不依赖于无损结构的传输协议。此外,RoCE 和 InfiniBand 使用的 API(动词)设计用于比现代 AI 和 HPC 作业以及具有集成网络的未来加速器所需的规模低得多的规模(无论是带宽还是对等点数量)。 RC(可靠连接)传输模式不适合高速高效硬件卸载实现,因为高速硬件卸载需要减少快速路径状态。虽然已经进行了专有尝试来解决 RC 的局限性,但没有一种被广泛接受,也没有完全解决其固有的进程到进程 (P" ) 可扩展性问题所带来的限制。虽然 RC 的实现规模适中,但它们增加了端点成本和复杂性,这对于未来规模的 AI 工作来说是负担;需要一种新的解决方案。最后,AI 应用程序传输大量数据。如上所述,传统的 RoCE 将此数据作为少量大流量传输,必须仔细进行负载平衡以防止任何单个链接过载。AI 工作负载通常无法继续,直到所有流量都成功交付,甚至一个超负荷的链接也会限制整个计算。改进的负载平衡技术对于提高 AI 性能至关重要

超级以太网传输 (UET):下一代 AI 和 HPC 网络协议

超级以太网联盟的成员认为是时候重新开始并用超级以太网传输取代传统的 RoCE 协议了,超级以太网传输是一种现代传输协议,旨在提供 AI 和 HPC 应用程序所需的性能,同时保留以太网/IP 生态系统的优势。TCP/IP 和以太网的成功给我们带来了两个基本教训:传输协议应提供丢失恢复,并且无损结构在不触发队头阻塞和拥塞扩散的情况下运行非常具有挑战性。UEC 传输遵循这些原则,建立在分布式路由算法和基于端点的可靠性和拥塞控制的成熟路径之上。 UEC 传输协议通过提供以下内容超越了现状:

● 从一开始就设计为在 IP 和以太网上运行的开放协议规范

● 多路径、数据包喷射传输,充分利用 AI 网络,不会造成拥塞或队头阻塞,无需集中式负载平衡算法和路由控制器

● Incast 管理机制,可控制到目标主机的最终链路上的扇入,同时最大限度地减少丢失

● 高效的速率控制算法,允许传输快速提升到线速,同时不会导致竞争流的性能损失

● 用于无序数据包传送的 API,可选择按顺序完成消息,最大限度地提高网络和应用程序中的并发性,并最大限度地减少消息延迟

● 可扩展到未来的网络,支持 1,000,000 (1B: 百万)个端点

● 性能和最佳网络利用率,无需针对网络和工作负载进行拥塞算法参数调整

● 设计用于在 800G、1.6T 及未来更快的以太网网络上的商用硬件上实现线速性能

UEC 规范将超越传输层定义标准语义层、改进的低延迟交付机制以及一致的 AI 和 HPC API,并通过 UEC 传输协议实现这些 API 的标准、多供应商支持。

AI 和 HPC 的安全性

AI 训练和推理通常发生在需要作业隔离的托管网络中。此外,AI 模型越来越敏感且是有价值的商业资产。认识到这一点,UEC 传输在设计上结合了网络安全性,并且可以加密和验证 AI 训练或推理作业中计算端点之间发送的所有网络流量。 UEC 传输协议利用经过验证的核心技术,实现高效的会话管理、身份验证和保密性,这些技术来自 IPSec 和 PSP 等现代加密方法。随着作业的增长,有必要支持加密,而不会使主机和网络接口中的会话状态膨胀。为此,UET 采用了新的密钥管理机制,允许在参与作业的数万个计算节点之间高效共享密钥。它旨在以 AI 训练和推理所需的高速度和规模高效实施。大型以太网网络上托管的 HPC 作业具有相似的特征,需要类似的安全机制。

UEC 的进一步努力 - HPC 及其他

除了为 AI 提供改进的网络之外,UEC 还在开发技术以支持未来高性能计算 (HPC) 的网络需求。展望未来,AI 和 HPC 的工作负载和网络要求预计将越来越重叠。因此,我们预计 UEC 传输协议能够满足 AI 和 HPC 作业的网络需求。认识到带宽和延迟的不同敏感度,UEC 规范将提供两种配置文件——一种针对 AI 进行了优化,另一种针对 HPC 进行了优化。随着速度和规模的增加,仅依赖端到端重试的传统方法对于延迟敏感的工作负载越来越繁重。链路层的本地错误处理已被证明在横向扩展 HPC 网络(例如百亿亿次系统中使用的网络)中很有价值。UEC 规范为以太网提供了此功能。

总结

AI 系统通常部署在具有从发送方到接收方的多条路径的网络拓扑上。同时高效地使用这条昂贵高速公路的所有车道至关重要。为了实现这一点,需要使用数据包喷洒、灵活排序和优化的拥塞控制算法来实现可扩展且高效的远程内存访问。此外,新的端到端遥测、可扩展安全性和 AI 优化 API 对于针对未来密集 AI 计算的独特通信需求进行优化的网络至关重要。 UEC 协议还旨在支持现代 HPC 工作负载,利用上述相同的传输机制,同时保留广泛使用的 API,例如 MPI 和 PGAS。UEC 的创始成员

包括当今许多最大的 AI 和 HPC 网络的供应商和运营商。UEC 的努力利用了其成员多年来构建和运营这些网络的经验。即将发布的 UEC 草案规范将开放使用,作为 AI 和 HPC 网络的可互操作基础。UEC 正在开发的技术将产生持久影响,提高未来要求苛刻的 AI 和 HPC 应用程序的性能、易用性和成本。有关更多信息,请访问 www.ultraethernet.org

关于超级以太网联盟超级以太网联盟将公司聚集在一起,在互操作性方面进行全行业的合作,并构建一个完整的基于以太网的通信堆栈架构,以最好地匹配快速发展的 AI/HPC 工作负载,并提供一流的功能、性能、互操作性和 TCO 以及开发人员和最终用户的友好性。

UEC 是联合开发基金会项目有限责任公司系列,是 Linux 基金会的附属机构。创始成员包括 AMD、Arista、Broadcom、思科、Eviden(Atos 旗下业务)、HPE、英特尔、Meta、微软。更多信息请访问 ultraethernet.org

联盟成员

参考

UEC官网: https://ultraethernet.org/

UEC规范1.0: 23.07.12-UEC-1.0-Overview-FINAL-WITH-LOGO.pdf

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 术语
  • 简介
    • 现代 AI 工作对网络的需求
    • 以太网的优势
    • 未来 AI 和 HPC 网络的关键需求
    • 多路径和数据包喷射
    • 灵活排序
    • AI 和 HPC 优化的拥塞控制
    • 端到端遥测
  • RDMA 的成功及其局限性 - 一个值得重新审视的案例
  • 超级以太网传输 (UET):下一代 AI 和 HPC 网络协议
    • AI 和 HPC 的安全性
    • UEC 的进一步努力 - HPC 及其他
    • 总结
    • 联盟成员
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档