首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >UALink加速互联计算竞争

UALink加速互联计算竞争

作者头像
数据存储前沿技术
发布2025-02-11 18:06:02
发布2025-02-11 18:06:02
6740
举报

英伟达目前是世界上最大AI数据中心制造商,约占全球80%-95%的市场份额[1]。凭借着其专有的互联技术NVLink、NVLink Switch(NVSwitch)和Infiniband,实现了AI芯片和数据中心之间的高速数据传输。

按:UALink 最新一代标准即将发布,且看数据中心互联技术竞争。

问题意识(背景)

UALink-Fig-1

在数据中心推进人工智能(为什么互联技术在DC重要?)

  • • 人工智能模型继续增长,需要更多计算和内存来高效执行这些大型模型的训练和推理。
  • • 该行业需要一个开放的解决方案,允许在多个加速器之间分配模型。
  • • 大型推理模型将需要在模块中扩展数十到数百个加速器。(单个系统内)
  • • 大型训练模型将需要通过连接多个模块来扩展数百到数万个加速器。(多个系统之间)

UALink-Fig-2

UALink 成员(头部A国互联网、硬件厂商,留意没有Nvidia

UALink-Fig-3

超级加速器链路(Ultra Accelerator Link,UALink)

  • • AMD、Broadcom、Cisco、Google、HPE、Intel、Meta和Microsoft已合作成立了一个推广团体,形成了一个新的行业标准UALink,以创建扩展生态系统。
  • • UALink创建了一个开放生态系统,用于扩展多个人工智能加速器的连接:
    • • 使用行业标准协议在加速器之间有效地进行通信。
    • • 轻松扩展一个模块中的加速器数量。
    • • 优化现在及未来计算密集型工作负载所需的性能。
  • • 开放扩展内存语义织物具有显著优势。
  • • 与如超级以太网联盟(Ultra Ethernet Consortium,UEC)等扩展外方法互补。

UALink-Fig-4

UAL 最新进展

UALink是一种专为AI加速器(如GPU)之间高效通信而设计的互连技术。以下是关键要点:

  1. 1. 组织计划:预计在2024年第三季度正式启动,年底前发布初始规范
  2. 2. 技术目的:实现加速器之间的直接通信,支持直接加载、存储和原子操作
  3. 3. 性能特征:
    • • 提供低延迟、高带宽的通信结构
    • • 支持单个pod中数百个加速器的互连
    • • 实现简单的加载/存储语义,同时保证软件一致性
  4. 4. 技术基础:UALink规范基于开发和部署各种加速器的经验,并利用了成熟的Infinity Fabric协议。

UALink-Fig-5

UAlink 使用场景

Note:UALink是对标NVlink的互联协议,场景是片上加速器互联通信(可扩展为单个Pod),和CXL、IB、UEC(超以太网联盟)等场景不同。

“反英伟达联盟”成立,UALink能否取代NVLink?_凤凰网

高性能计算和数据中心用于加速器互连的几种关键技术和标准,以及它们各自的适用场景如下: 1. UALink (Ultra Accelerator Link) 适用场景: 主要用于数据中心和高性能计算环境中,支持多个AI加速器之间的扩展连接。这种标准致力于创建一个开放的生态系统,使得不同厂商的加速器能够高效地进行通信和扩展,适用于需要大规模AI计算和数据处理的应用。 2. NVLink 适用场景: 主要用于NVIDIA的GPU之间,或GPU与其他处理器(如CPU)之间的高速数据传输。NVLink适用于图形密集型应用、深度学习训练和推理等场景,其中对带宽和延迟的要求极高。 3. CXL (Compute Express Link) 适用场景: 主要支持CPU与加速器、内存扩展设备之间的高速互连。CXL适合于内存共享和资源协调需求较高的数据中心环境,如大规模虚拟化、云计算以及需要高速内存访问的应用。 4. InfiniBand 适用场景: 用于连接高性能计算集群的节点,广泛应用于科学计算和工程模拟领域。InfiniBand提供极高的数据传输速率和非常低的延迟,适用于要求实时数据处理和大量数据传输的计算密集型任务。 5. Omni-Path 适用场景: 类似于InfiniBand,主要用于连接高性能计算环境中的服务器和存储系统。Omni-Path适合于超级计算和密集数据处理,其中对通信效率和扩展性有较高要求。

UALink-Fig-6

图中右下框选示意:UALink的作用单元,可互联单服务器上的多个加速器(数十到数百),可以扩展到整个pod上的加速器互联(数百到数万)。上款选示意:多个pod间的扩展互联技术,如 UEC/IB (主流),以及在HPC场景使用较多的Intel Omni-Path.

Note:NV的加速计算方案中IB作为横向扩展互联的网络方案,技术相对垄断且价格昂贵,UEC是基于以太网的互联组织,Omni-Path是成熟的以太网互联方案,可以说后两者是业内与IB竞争的主流组织及方案。

总结

本文介绍了一个由AMD、Broadcom、Cisco、Google、HPE、Intel、Meta和Microsoft共同组成的Promoter's Group发起的项目——Ultra Accelerator Link(UACLink),旨在为人工智能模型的训练和推理提供一个高效的加速解决方案,UALink联盟计划在2024年第三季度启动该组织,初始规范将在年底前发布。

引用链接

[1] 约占全球80%-95%的市场份额: https://tech.ifeng.com/c/8a26FMdk2AZ

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 问题意识(背景)
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档