前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >FAM与CXL:HPC存储架构的未来机遇

FAM与CXL:HPC存储架构的未来机遇

作者头像
数据存储前沿技术
发布2025-02-21 16:13:33
发布2025-02-21 16:13:33
950
举报

全文概览

在高性能计算(HPC)领域,存储技术的创新一直是推动计算能力提升的关键。随着数据规模的不断增长和计算需求的日益复杂,传统的存储架构已逐渐无法满足需求。HPE通过其创新的FAM(Fabric-Attached Memory)和CXL(Compute Express Link)技术,为HPC存储架构带来了新的可能性。本文将深入探讨这些技术的核心原理、应用场景以及未来的发展机遇,帮助读者全面理解FAM和CXL在HPC中的重要性。

内容总结与章节划分

1. 内存介质材料创新
  • Memristor ReRAM:基于氧迁移的TiO₂材料。
  • 相变存储器(PCM):硫族玻璃中的无定形/结晶相变。
  • 磁性RAM(MRAM):利用磁性存储数据。
2. 内存驱动计算
  • 从以处理器为中心的计算到内存驱动的计算。
  • Gen-Z架构:提升计算性能和内存管理。
  • 内存语义互联:优化内存和计算单元之间的连接。
3. 网络附加内存(FAM)
  • FAM技术路径:基于光学路径通信,提供高带宽和低延迟。
  • GoldenTicket系统:32个计算节点,支持大容量内存和高带宽传输。
  • 经验教训:FAM适合存储而非直接计算内存,数据结构设计至关重要。
4. CXL在HPC中的应用
  • CXL技术特点:支持内存扩展和计算资源共享。
  • 案例研究:El Capitan中的MI300A计算节点:CXL带宽限制及其在HPC中的局限性。
  • CXL DRAM模块的局限性:无法显著提升HPC节点的内存带宽。

阅读收获

  1. 理解FAM和CXL的核心技术:掌握FAM和CXL在HPC中的工作原理及其优势。
  2. 洞察HPC存储架构的未来趋势:了解FAM和CXL如何推动HPC存储技术的发展。
  3. 掌握内存介质的创新方向:熟悉Memristor ReRAM、PCM等新型内存技术的应用场景。
  4. 提升对高性能计算的理解:通过案例分析,深入理解CXL在HPC中的实际应用及其局限性。

20250216-1014-1.png
20250216-1014-1.png

与内存相关的术语

  • FAM(Fabric-Attached Memory,网络附加内存): 是指从CPU中分离出来,通过网络结构访问的内存。
  • 持久性内存(Persistent Memory): 是指在存储数据的过程终止后,能够保留数据以供将来使用的内存。(通常与“弹性”内存或“非易失性”内存混淆。)
  • 非易失性内存(Non-Volatile Memory): 是指在断电时仍能保留其内容的内存,例如Flash、PCM、MRAM等。
  • 弹性内存(Resilient Memory): 是指能够在故障存在的情况下保证定义服务水平的内存。这种“服务水平”可以包括在指定时间内保证数据保留、在崩溃或断电时保证恢复到已知状态、保证写入耐久性等。
  • 写入磨损(Write Wear): 指内存单元(单元/行/页)在无法成功存储并保留写入数据之前,能够写入的最小次数。Flash、ReRam和相变存储器(如Optane)会遭遇写入磨损问题。由于底层技术的性质,DRAM不会受到明显的写入磨损影响。

DRAM 与 SRAM 的易失性特点

理解持久性和非易性的前提是了解经典内存的工作机制:

  • 电力依赖性: 传统内存的一个核心特点是易失性,意味着它的数据仅在电源持续供应的情况下有效。一旦电源被切断或断电,存储在内存中的数据会丢失。因此,传统内存无法在没有电力的情况下保存数据。
  • 存储方式:
    • DRAM(动态随机存取内存): DRAM 通过电容器存储信息,电容器存储的数据会随时间泄漏,因此需要定期刷新(也就是“刷新操作”),否则存储的数据会丢失。一旦电源关闭,电容器中的电荷消失,数据即丢失。
    • SRAM(静态随机存取内存): SRAM 使用六个晶体管来存储每一位数据。虽然它比DRAM更稳定,但依然依赖电力供应。如果电力中断,数据会丢失。
  • 数据保留时间: 由于这些内存的存储方式依赖于电流和电荷,数据保留时间通常只有在电力供应时才有效。当系统关机或重启时,内存中存储的数据会丧失。因此,传统内存主要用于高速缓存、临时数据处理等场景。
  • 与非易失性内存的区别: 相较于非易失性内存(如Flash存储、固态硬盘、磁盘存储等),传统内存具有显著的区别。非易失性内存即使在电源关闭的情况下也能保留数据,而传统内存则无法做到这一点。
  • 使用场景: 由于易失性特点,传统内存通常用于计算机的临时存储,例如RAM,它快速处理数据并为处理器提供临时工作空间。然而,所有这些数据在断电或系统崩溃后都会丢失,无法持久存储。

L1 - 回顾HPE的存储技术创新


20250216-1014-2.png
20250216-1014-2.png

内存介质材料创新

  • Memristor ReRAM – 氧迁移在TiO₂中
    • Strukov, Snider, Stewart, Williams, 《自然》, 2008年5月,HP实验室
  • 相变存储器(PCM) – 在硫族玻璃(GeSbTe)中的无定形/结晶相变
    • Charles Sie, 相变存储器博士论文, 爱荷华州立大学, 1966年
    • Shanefield, 美国专利3,448,302, 1969年6月ITT
    • Ovishinsky, 美国专利5,166,758, 1992年11月,能源转换设备公司
    • Intel/Micron Optane™宣布,2015年
  • 磁性RAM(MRAM)、碳纳米管RAM(NRAM)等。

市场动态

英特尔于2022年宣布逐步终止Optane业务,主要原因并非相变存储器(PCM)技术本身的问题,而是多方面的市场和战略考量。

主要原因包括:

  1. 市场需求不足: 尽管Optane技术在性能上具有优势,但市场对其需求未达到预期,导致产品未能获得广泛的市场接受。
  2. 技术合作关系变化: 英特尔与美光的3D XPoint技术合作关系解除了,这影响了Optane产品的供应链和技术支持。
  3. 战略调整: 英特尔将NAND闪存业务以90亿美元出售给SK海力士,导致Optane产品缺乏关键的存储介质供应来源。
  4. 行业趋势变化: 随着CXL(Compute Express Link)架构的兴起,业界对内存和存储的需求发生变化,影响了Optane产品的市场前景。

20250216-1014-3.png
20250216-1014-3.png

内存驱动计算 - 2014

  • 以处理器为中心的计算(左侧图): 处理器与内存以及多个系统芯片(SoC)通过直接连接的方式进行交互和操作。
  • 内存驱动的计算(右侧图): 在这种架构中,内存和网络结构(Fabric)作为核心组成部分,连接各个系统芯片(SoC),使得内存能够更高效地驱动计算和数据处理。

20250216-1014-4.png
20250216-1014-4.png

Gen-Z + HyperX – 内存语义互联 - 2016

  • Gen-Z 架构:
    • 包括处理器/内存控制器、交换机、网络控制器、图形、内存和非易失性内存(NVM)。
    • Gen-Z 架构的重点是提升计算性能和内存管理,提供高带宽、低延迟的连接。
  • 内存语义互联(Memory-Semantic Interconnect):
    • 右侧展示的两种拓扑图描述了Gen-Z架构的内存语义互联方式,旨在通过优化内存和计算单元之间的连接方式来提高计算效率。
    • 这些拓扑图中的元素(如T、R、L、S等)代表了系统中的不同组件(如传输节点、路由节点和层次结构),以便在Gen-Z架构中实现高效的数据传输。

内存语义 概念与实现

如何理解 内存语义的概念?与元数据的差异?

内存语义互联(Memory-Semantic Interconnect)是一种新的技术,主要用于优化计算机中不同部件(如处理器、内存和存储设备)之间的数据传输和交互。

我们可以通过一个简单的类比来理解:想象你在一个大型工厂工作,每个工厂的不同部门(如生产、包装、仓库)负责不同的任务。为了确保这些部门有效合作,每个部门之间需要有良好的沟通方式,才能使生产线顺利运行。工厂中有不同的通信线路(就像计算机中的数据传输通道),通过这些线路,部门之间能快速准确地交换信息,从而高效完成任务。

在传统的计算机架构中,处理器和内存之间的数据传输往往依赖于比较简单的、标准化的连接方式,而“内存语义互联”则是在此基础上做了优化,加入了“语义”这一概念。意思是,数据在传输过程中,不仅仅是简单地从一个地方移动到另一个地方,而是还包含了关于数据的“意义”,即数据如何被使用和处理的信息。

通过“语义”这一层次,计算机能够更加智能地理解数据的需求和处理方式,从而提高数据传输的效率,减少不必要的等待和延迟,使得计算机能更加流畅和快速地处理大量数据。它就像工厂中的智能系统,能够根据生产需求动态调整不同部门之间的工作优先级和协调方式,从而提高整个工厂的运作效率。

简单来说,内存语义互联不仅仅是改进硬件连接,更在数据如何被使用和传递方面提供了更智能的管理和优化。

与数据的元数据的关系:

“内存语义”和“元数据”有一些相似之处,但不完全相同。

  • 元数据是指关于数据的数据,它通常描述了数据的结构、属性、格式、来源等信息。例如,一个文件的元数据可能包括它的大小、创建时间、类型等。这些信息帮助系统理解如何存储和访问这些数据。
  • 内存语义则更多地关注数据如何在计算过程中被使用,尤其是在内存和处理器之间的交互中。它不仅仅是描述数据的“属性”或“结构”,而是关注数据的“角色”或“目的”。比如,某个数据可能是“临时计算结果”,它在计算完毕后不再需要保留;而另一个数据可能是“持久存储的数据”,它需要被保存和备份。

内存语义功能是如何实现的?

内存语义的实现,简单来说,就是通过在数据传输中引入额外的“上下文信息”来优化数据的处理和传递方式。它的目的是让计算机不仅仅传输数据本身,还能理解这些数据的“用途”或“意义”。这样,系统可以根据数据的特性和用途,智能地调度和管理内存访问,从而提高性能和效率。

如何实现内存语义:

  1. 数据标注: 在数据传输过程中,可以给数据加上一些“标签”或“元信息”(比如它是程序执行中的临时数据,还是存储的数据),这些标签帮助系统理解数据的上下文和用途。
  2. 硬件支持: 一些现代内存和处理器架构(例如Gen-Z、HyperX等)在硬件层面集成了对这些语义信息的支持,使得处理器和内存可以依据数据的语义来优化传输过程。例如,某些数据可以被优先处理或缓存,以减少延迟。
  3. 智能调度: 基于这些语义信息,系统可以动态地调整内存的分配和数据流动方式,避免冗余的数据传输。例如,计算机可以优先处理高优先级的任务,减少对低优先级任务的干扰。

20250216-1014-5.png
20250216-1014-5.png

原型机

  • 左侧架构示意图:
    • 计算节点由多个SoC(系统级芯片)组成,每个SoC连接着本地DRAM(内存)和NVM(非易失性内存)。
    • 这些SoC通过网络连接在一起,且各个节点之间通过内存和通信结构(Communications and Memory Fabric)互联。
    • 内存池由“Fabric-Attached Memory Pool”组成,其中包括了Fabric附加内存(FAM),用于提供更加高效的内存共享和访问。
  • 右侧硬件原型图:
    • Memory Fabric Media Controller:控制内存和通信结构的数据流。
    • Fabric Attached Memory (FAM):与计算节点连接的共享内存,支持高效的数据访问。
    • Compute SOC:计算处理单元,负责执行计算任务。
    • Fabric Bridge:连接计算节点和内存池的桥接器,确保内存数据可以在系统各部分之间高效传输。
    • 这部分图展示了TheMachine硬件原型的实际布局。
    • 标注说明:

20250216-1014-6.png
20250216-1014-6.png

直连板内光学技术

图片介绍了HP实验室的“直接连接”板内光学技术。

这项技术通过在电气传输通道和光学传输通道之间进行紧密集成,提供高效的光电转换和数据传输。

关键技术包括VCSEL阵列和光学SerDes,它们协同工作以实现更高的带宽和更低的延迟,同时减少传统铜缆传输的限制。通过集成多个链路训练引擎,HP的“直接连接”光学技术能够提供更可靠的信号传输,并能支持多个数据协议(如以太网和PCIe)。这种创新有助于推动高性能计算和数据中心的进一步发展。


20250216-1014-7.png
20250216-1014-7.png

全光连接

图片展示了在2017-2019年间DOE(能源部)支持的光学计算架构的发展路径。

重点是使用光学Gen-Z网络结构来连接多个计算节点(Seahawk节点)和交换机(Platoon交换机)。通过这种架构,数据传输将利用高带宽的光学连接(如光纤和光学桥接模块),而不是传统的电气连接。这一技术旨在提高计算和数据传输效率,推动超大规模并行计算的进步。

光学 vs 铜线 传输

  • 光学传输:适合于大规模数据中心间的长距离高带宽传输,特别是在需要大量数据交换和高带宽的环境中,光纤表现出明显的优势。它对电磁干扰免疫,能实现低功耗和高可靠性,但初期成本较高,且需要特定的硬件支持。
  • 铜线传输:目前仍然是数据中心内部连接的主流,因其低成本、成熟的技术和安装简便。特别适合短距离传输,适用于大多数内部通信任务(如PCIe)。然而,随着带宽需求的增加,铜线可能会遇到传输瓶颈。
20250216-1014-8.png
20250216-1014-8.png

20250216-1014-9.png
20250216-1014-9.png

网络附加内存的技术路径

图片展示了HP实验室的PathForward FAM模块的设计与构造。

该模块采用了多个先进的硬件组件,如光学Gen-Z接口、Xilinx FPGA、Rockstar ASIC和“OZS”光学交换机模块,旨在提供更高效的光学通信和内存控制。通过这些技术的结合,系统可以实现高带宽、低延迟的内存访问与数据传输,适应未来更大规模和更高效能的数据中心需求。

Cite

左图为 网络附加存储核心组件拓扑,区别于CXL通过PCIe通道扩展内存,FAM 基于光学路径通信,内部有更多内存DIMM插槽,后期作为独立内存单元与服务器解耦,光学传输能极大改善 CXL 内存时延问题,但该技术路线在FMS厂商材料中很少看到。

更多关于 CXL 内存时延问题的讨论,可参考阅读:

  1. XConn:CXL内存应用的带宽和时延
    • 该文章详细探讨了CXL技术在内存应用中的带宽和时延特性,分析了不同内存连接方式下的性能表现,特别是CXL交换机连接方式在多线程环境下的带宽优势及时延特性。
  2. H3:CXL 内存共享架构与解决方案
    • 文章中提到CXL内存访问时延的比较,指出直连内存的时延最低,而CXL池化内存的访问时延最高,提供了不同架构下的时延数据和分析。
  3. MetisX:从CXL内存扩展到近存计算
    • 该文章讨论了CXL内存在近存计算中的应用,分析了CXL内存访问时延与NUMA跨节点访存时延的对比,指出了不同内存架构下的时延差异及其对系统性能的影响。


20250216-1014-11.png
20250216-1014-11.png

高性能计算(HPC)和数据分析的理想化工作流

图展示了一个理想化的高性能计算(HPC)和数据分析工作流。

数据从外部源输入,通过数据摄取线程进入全球持久性内存,随后存储在内存数据存储中。计算集群中的分析线程对数据进行分析,并将查询结果返回给请求方。处理后的数据最终被存档存储,便于长期保存和访问。通过这种结构,可以高效地处理大量数据并进行快速分析。

  • 外部数据源:数据从外部源(如传感器、外部数据库等)进入系统。
  • 数据摄取线程(Ingest threads):负责将数据从外部数据源传输并加载到系统的缓冲区中。
  • 全局持久性内存(Global Persistent Memory):存储所有原始数据,并保持数据的持久性。
    • 原始数据缓冲区(Raw data buffer):用于存储待处理的数据。
    • 内存数据存储(In-memory data store):数据会被临时存储在内存中,以便快速访问。
  • 计算集群(Compute Cluster):进行数据分析的计算资源集群,包含多个线程。
    • 分析线程(Analysis threads):进行数据分析计算的线程,从内存数据存储中提取数据并进行处理。
  • 查询和响应:
    • 查询(Queries):外部请求的数据查询。
    • 响应线程(Query threads):处理查询并返回相应结果的线程。
  • 存档存储(Archival storage):处理后的数据被存档,便于长期存储和未来访问。

20250216-1014-12.png
20250216-1014-12.png

GoldenTicket – 2018-2022

图展示了“GoldenTicket”系统的配置,包括32个计算节点,采用AMD和Intel的处理器,配置有大容量内存、NVMe SSD和高带宽的Slingshot网卡。系统还采用Dolphin PCIe互连,支持高效的数据传输和存储。FAM分区A和B分别使用了不同的处理器和内存配置,满足不同的计算需求。

===

  • 32个计算节点
    • DL385 双AMD “Milan” CPU
    • 1024GB 内存
    • 双Slingshot网卡(NIC)
  • FAM分区A(10个节点)
    • DL385 双AMD “Milan” CPU
    • 4TB 内存
    • 双Slingshot网卡(NIC)
    • 四个6.4TB NVMe SSD
    • Dolphin PCIe互连
  • FAM分区B(10个节点)
    • DL380 双Intel “Ice Lake” CPU
    • 1TB DRAM
    • 双Slingshot网卡(NIC)
    • 8TB “Barlow Pass” SCM
    • 四个6.4TB NVMe SSD
    • Dolphin PCIe互连

附加信息:

  • 84个Epyc 7763处理器,40个Xeon 8380处理器
  • 6176个总核心
  • 每个节点400Gbps Slingshot带宽

Note

早在2年前,HPE就有内存解耦的系统级实践了!

关于 Slingshot 网卡

Slingshot网卡是由Mellanox(现为NVIDIA的一部分)开发的高带宽、低延迟网络技术,专为高性能计算(HPC)、人工智能(AI)、数据中心以及其他需要大规模并行计算的应用场景设计。它被广泛用于支持数据中心中的超大规模计算任务,特别是在大规模并行数据处理和高性能数据传输方面具有显著优势。

Slingshot网卡的特点:

  1. 高带宽和低延迟:
    • Slingshot网卡的最大特点是其极高的带宽和极低的延迟,能够满足大规模并行计算的需求。Slingshot的带宽可以达到400Gbps,远高于传统以太网和InfiniBand技术。
    • 它采用了路由-无阻塞交换架构(Route-and-Block-free Switching Architecture),减少了延迟和吞吐量瓶颈,优化了数据中心和HPC集群之间的通信效率。
  2. 适用于大规模并行计算:
    • Slingshot非常适合用于超级计算机、大规模分布式计算、机器学习和AI训练等对数据传输要求极高的场景。它能处理海量数据流,确保每个计算节点之间能够高效地交换数据,最大程度地提高计算效率。
  3. 支持RDMA和高级网络功能:
    • Slingshot支持远程直接内存访问(RDMA),这意味着可以在节点之间直接传输内存内容,而无需通过CPU进行中转。这样减少了延迟,提高了数据处理速度,尤其适用于需要快速数据访问和计算的大规模应用。
    • 它还支持动态路由、广播、组播等功能,使得数据传输更加灵活和高效。
  4. 高效的拓扑结构:
    • Slingshot网卡采用了类似Dragonfly topology的高效网络拓扑,能够为大规模集群提供低延迟、高吞吐量的网络连接。这种拓扑适合大规模的超级计算机,能够优化多节点之间的通讯。
  5. 兼容性和标准化:
    • Slingshot兼容现有的标准和协议(如以太网和InfiniBand),同时,它也在数据中心基础设施和高性能计算设备中得到了广泛支持,用户可以轻松集成和部署。

20250216-1014-13.png
20250216-1014-13.png

GoldenTicket概念系统 - 2020

图片展示了GoldenTicket概念系统的架构,特别是Granite Rapids节点的设计。

每个节点的输入带宽高达100 GB/s,支持大量数据的高速传输。系统采用CXL(Compute Express Link)和PCIe Gen 5连接技术,提供高效的计算和存储模块互联能力。Slingshot网卡** 确保高带宽的网络传输,适用于需要大量数据并行处理的应用,如高性能计算和数据分析。

===

Granite Rapids节点:

  • 每个节点提供100 GB/s的数据输入带宽。
  • 配备16个1TB的Donahue Pass CXL Optane™模块。
  • 节点连接包括:
    • Slingshot网卡:每个节点有两个Slingshot网卡,支持每个端口25 GB/s的带宽。
    • Cassini:高带宽的互连系统,连接多个节点和设备。
    • PCIe Gen 5接口:每个Cassini通过16个PCIe Gen 5通道连接到CPU和其他组件。
    • CXL连接:连接多个1TB CXL SCM模块,支持7-10 GB/s的带宽。

Note

CXL 内存扩展方案与FAM还是有区别的,虽同为内存解耦,但CXL扩展模块仍在单个服务器内。


20250216-1014-14.png
20250216-1014-14.png

大规模并行计算任务的数据存储格式

图片展示了CSRCPSM两种稀疏矩阵存储格式在不同规模和PE数目下的数据传输性能对比。

CSR格式在小规模系统中传输冗余数据,而CPSM通过更加高效的方式传输数据,减少了不必要的传输,特别是在大规模计算中具有显著优势。

为什么要讨论稀疏矩阵存储格式?

  1. 计算效率和内存利用:
    • 稀疏矩阵是实际应用中常见的矩阵类型,如图形处理、机器学习中的神经网络等。稀疏矩阵中大多数元素是零,因此合理的存储格式对于节省内存和提高计算效率非常重要。
    • 讨论不同的存储格式(如CSR和CPSM)可以帮助我们理解它们如何影响数据的存取和处理,尤其是在多处理器系统中,如何避免冗余的数据传输并提高内存重用。
  2. 数据传输优化:
    • 在高性能计算(HPC)和数据分析任务中,稀疏矩阵乘法(SpMV)是常见的计算任务。对于大规模系统,数据传输是性能瓶颈之一。CSR和CPSM格式在数据传输的方式上存在差异,影响到如何在不同PE间高效地传递数据。
    • 例如,CSR格式的存储方式会导致乘法向量的冗余传输,而CPSM格式通过优化数据的分配和传输,减少了不必要的数据移动,从而提升了性能。
  3. 适应不同规模的计算:
    • 在不同规模的系统中,使用哪种存储格式会直接影响到处理效率和通信成本。例如,在小规模系统中,CSR格式的冗余传输可能不会造成显著的性能损失,但随着系统规模的增加,这种冗余会显得更加显著。因此,了解这两种格式的特点,可以帮助设计更适合的存储方案和计算架构。
  4. 影响存储器带宽和缓存局部性:
    • CSR格式由于行元素存储的随机性,会降低缓存命中率,从而影响带宽的利用率。
    • CPSM格式将数据按列分区,这样可以更好地适应内存局部性,从而提高缓存命中率和带宽利用效率。

20250216-1014-15.png
20250216-1014-15.png

一些经验教训

图片总结了在使用FAM(Fabric-Attached Memory)系统中的一些重要经验。

FAM虽然作为存储非常快速,但由于其高延迟,它并不适合作为直接计算的内存,特别是对于需要频繁访问的原子操作和小消息。尽管如此,FAM提供的高容量和低成本使其在存储方面仍然具有优势。对于高性能计算应用,尤其是涉及大量线性代数计算的场景,数据结构的设计非常关键,特别是在压缩的稀疏矩阵存储方面,需要更多内存来提高计算性能。

===

  • Slingshot、以太网和InfiniBand缺乏内存语义,意味着对FAM的引用必须通过RDMA转换为消息:
    • FAM的延迟意味着大多数计算必须在计算节点的内存中完成。
    • 原子操作、小消息、很少引用的数据访问会受到影响。
  • FAM不是理想的内存,但它是非常快速的存储!
    • 我们真正需要的是更高的容量和更低的每比特成本。
  • 存储在FAM中的数据结构设计至关重要!
    • 高性能计算(HPC)涉及大量线性代数运算。
    • 更高的性能需要更多的内存来存储压缩的稀疏矩阵。

L2 - CXL 在 HPC场景的讨论

20250216-1014-16.png
20250216-1014-16.png

案例研究:El Capitan中的MI300A计算节点

  • 8堆栈的HBM3该计算节点配置了8个堆栈的HBM3内存,提供了大容量的高速内存支持。
  • 峰值内存带宽达到5.3TB/s,支持高速数据传输。
  • 4x16 Infinity™ 扩展连接支持通过Infinity技术进行节点间扩展,提供更高效的计算资源共享。
  • 4x16 PCIe Gen5/CX L2.0或Infinity扩展出链接
    • 在Cray EX系统中,提供两个x16 PCIe/CXL 2.0链接。
    • 一个x16 PCIe链接用于Slingshot网卡(NIC)。
    • 仅提供一个x16或两个x8 CXL 2.0链接,带宽为64GB/s。
    • 计算得出,64GB/s带宽仅占HBM内存带宽的1.2%。

Note

CXL 受限于传输速率,在HPC高带宽、数据传输场景的可用性有限。


20250216-1014-17.png
20250216-1014-17.png

CXL DRAM模块对于高性能计算(HPC)不太适用

图片讨论了CXL DRAM模块在HPC中的局限性。尽管CXL提供了更高的带宽,但对于要求更高内存带宽和更大内存容量的HPC节点,CXL DRAM模块并不能提供显著的性能提升。

===

  • CXL并没有显著改善领导级HPC节点(或任何带有HBM或大量LPDDR通道的设备)的内存带宽:
    • 下一代领导级HPC节点将不再有显著的内存容量限制。
    • 是的,大家总是可以使用更多的内存,但带有16个DDR5通道的设备的最低配置是512GB。
    • 每个HBM堆栈将是64GB!
    • 内存通常是大型HPC系统的巨大成本组成部分。
  • CXL连接带宽将提升到64GT/s,搭配PCIe Gen6,但仍然不足够:
    • 在Gen6时间框架内,最先进的SerDes将以224Gbps运行!
    • 单个HBM4/4e设备将提供2-4TB/s的带宽!

延伸思考

这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~

  1. FAM和CXL在HPC中的结合应用有哪些潜在优势?
  2. 如何优化FAM和CXL的结合使用,以提升HPC的性能和效率?
  3. 未来内存介质的创新方向是什么?FAM和CXL能否在其中发挥更大作用?

原文标题:Disaggregated Memory for High Performance Computing Architectures and Opportunities for CXL

---【本文完】---

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 内容总结与章节划分
  • 与内存相关的术语
  • L1 - 回顾HPE的存储技术创新
    • 内存介质材料创新
    • 内存驱动计算 - 2014
    • Gen-Z + HyperX – 内存语义互联 - 2016
    • 原型机
    • 直连板内光学技术
    • 全光连接
    • 网络附加内存的技术路径
    • 高性能计算(HPC)和数据分析的理想化工作流
    • GoldenTicket – 2018-2022
    • GoldenTicket概念系统 - 2020
    • 大规模并行计算任务的数据存储格式
    • 一些经验教训
  • L2 - CXL 在 HPC场景的讨论
    • 案例研究:El Capitan中的MI300A计算节点
    • CXL DRAM模块对于高性能计算(HPC)不太适用
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档