首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >SMART Modular:CXL Factor 动态

SMART Modular:CXL Factor 动态

作者头像
数据存储前沿技术
发布2025-02-11 18:50:45
发布2025-02-11 18:50:45
6120
举报

问题意识

1. CXL 未来5年市场空间如何?CXL扩展是否成为必选?

2. 场景案例下的,CXL内存扩展的成本分析?有多大优势?

3. E.3接口形态在不同场景下的选择?

左图是未来5年,CXL服务器出货量占比预测,2025年达到3%,2027年将进入快车道,随后快速增长;

右图是CXL DRAM 市场份额预测,与出货量占比趋同,2027年后开始快速增长,复合年均增长率(CAGR)达到48%。

服务器进入众核时代,且不断增加,AMD最新发布的第五代EPYC(霄龙)处理器,代号为“Turin”,单颗处理器最高可配置192个核心(384个线程)。

基于直连内存架构,数据/内存 密集型场景,主存控制器通道会成为新的带宽瓶颈(时延方面还是DIMM通道更快,具备优势;但带宽受限),如右图1所示。

右图2示意,CXL内存池可分配定量DRAM直通给多个(甚至所有)核心,从而实现处理核数据专属通道,存在的短板,如图中标注所示:CXL的通道速度有所下降,“mph”是“miles per hour”(英里/小时)的缩写,表示数据传输速度的对比。

Without CXL – "Scale out"

传统情况下,不使用CXL时,要扩展内存需要增加更多的CPU和内存模块。

特点:

增加内存意味着要增加更多的CPU模块,这样会导致硬件需求增加,进而提高系统成本。

With CXL – "Scale-up"

使用CXL后,可以通过CXL来扩展CPU的内存。

特点:

不再局限于增加CPU来扩展内存。

可以在现有的CPU上增加CXL内存模块,从而提高灵活性和效率。

CXL易于采用:可以通过CXL内存扩展卡利用低成本的RDIMM(适用于现有服务器机箱)或使用新的E3.S模块(适用于新型服务器机箱)。

附加的CXL优势:

  • • 降低功耗和成本。
  • • 增强的RAS(可靠性、可用性、可维护性)功能。
  • • 增强的遥测功能。
  • • 更方便的扩展性。

系统成本节约:使用CXL可节约系统成本达50%-60%。

CXL 落地路线(积极预测)

2024/2025 - 内存扩展(Memory Expansion)

描述:在这一阶段,CXL 1.1和2.0版本将被用于支持服务器的内存扩展。

硬件:支持1至8个CXL扩展卡(如RDIMM扩展)或1至4个CXL扩展E3.S模块。

特性:通过CXL扩展卡或E3.S模块,服务器可以增加更多的内存容量,但主要还是通过扩展卡直接连接CPU。

2025/2026 - 内存池化(Memory Pooling)

描述:进入内存池化阶段,CXL 1.1/2.0将支持直接或通过交换方式连接,形成内存池。

硬件:多个服务器可以连接到一个整合了交换功能的内存池设备中。

特性:在内存池化模式下,多台服务器可以共享一个集中管理的内存池,使内存资源的利用更加灵活和高效。

2026/2027 - 内存共享(Memory Sharing)

描述:在这一阶段,CXL 3.1版本将支持直接和交换式的内存共享连接。

硬件:系统中将包括PCIe CXL 3.1接口和GPU+CXL接口等I/O组件,并通过外部CXL交换设备连接到多个CXL内存设备。

特性:不同的计算资源(如CPU、GPU等)可以通过CXL 3.1实现更加动态和高效的内存共享,进一步提升系统性能和资源利用率。

利用常用的DDR5 RDIMM:

服务器可以使用市场上常见的DDR5 RDIMM模块,通过CXL扩展这些内存的容量。

更高的电力需求:

八通道的RDIMM模块(Octal RDIMMs)需要更高的功率,约为120-130瓦。

服务器选项:

市面上有多种现有的服务器选项,已经设计支持更高功耗的GPU,且带有辅助电源接口,这些服务器可以被重新配置为内存服务器来支持更大的RDIMM容量。

应用示例:

通过CXL,可以在一个2U的8-GPU服务器中,将RDIMM的数量从24扩展到88个,这样有效地增加了系统内存容量。

对比表格(RDIMMs容量对比 - 无CXL vs. 使用CXL):

96GB RDIMMs:无CXL时最大容量为2304GB,使用CXL后扩展到8448GB。

128GB RDIMMs:无CXL时最大容量为3072GB,使用CXL后扩展到11264GB。

256GB RDIMMs:无CXL时最大容量为6114GB,使用CXL后扩展到22528GB。

Note:CXL加持下的GPU服务器将成为内存”巨兽“。

TCO评估

需求:

需要在4台1U服务器中提供20TB(5TB/台)的内存,用于大规模的内存分析工作负载,且总成本控制在20万美元以内。

无CXL方案的限制:

在没有CXL的情况下,唯一可行的方案是使用256GB TSV(硅通孔)技术的DIMMs(是64GB方案的四倍),但这选项价格较高。

使用CXL的标准GPU服务器:

配置了4个带有8-DIMM的CXL扩展卡,额外增加了32个DIMM插槽,使得内存扩展更具灵活性。

成本优势:

使用CXL方案可实现高达66%的系统成本降低。

成本对比图(右侧):

图表展示了不同配置的成本比较,绿色条代表系统总成本,蓝色线代表所需服务器数量。

A方案(256GB DDR5,无CXL):系统总成本为380,400美元,使用4台服务器。

G方案(96GB DDR5 + 96GB CXL):系统成本降至120,560美元,仍然需要4台服务器。

I方案(128GB DDR5 + 128GB DDR4 CXL):成本为206,100美元,仅需3台服务器。

图左是不同规格 DDR5 内存报价,容量越大,制造工艺越复杂,成本越高;

图右比较了组成1TB系统内存的两种方案:

传统配置方案(左侧):

使用8个128GB的DDR5 RDIMM模块实现1TB系统内存。

总成本约为$8,000。

CXL扩展方案(右侧):

使用8个64GB DDR5 RDIMM模块,加上一个8-DIMM的CXL扩展卡,每个插槽装载64GB的RDIMM模块,实现1TB系统内存。

总成本约为$5,000。

成本对比:

使用CXL扩展方案的成本比直接使用高容量128GB RDIMM模块方案降低了约38%。

Note:系统内存从传统方案的统一存储池,演变为直连内存和CXL内存,后者在实际应用中的时延仍较为明显。

如何更经济的在服务器主板上集成CXL内存扩展?

传统CXL卡和纤薄型CXL卡的比较

传统CXL扩展卡的限制(左上)

常规的CXL扩展卡占用了两个PCIe插槽(额外供电设备+散热考虑),并阻挡了其他卡的连接。

这种设计可能限制了服务器中其他扩展卡的使用空间,特别是在空间受限的1U和2U服务器中。

4-DIMM Slim Board(4-DIMM纤薄板卡,右侧)

这种新设计的纤薄CXL卡仅占用一个插槽。

更高的密度设计使其可以充分利用所有PCIe插槽,同时兼容1U系统。

DIMM模块垂直安装在独特的柔性板上,有效节省空间。

主要特性(右侧说明)

纤薄CXL卡选项:利用RDIMM,仅占用一个插槽位置,适用于更常见的机箱和电源单元(PSU)。

电源需求:仅通过PCIe插槽供电,不需要额外的辅助电源(AUX power)。

灵活性选项:

支持单x16接口以提升性能。

支持双x8接口以增加容量,可通过单个扩展卡插入多个DIMM模块。

不同E3接口形态CXL卡场景区分

非易失性内存需求

内存密集型应用(如AI/ML)需要能够在内存速度下工作的非易失性选项,以确保系统状态和缓存数据的安全。

  • • 加快在AI/ML应用中的检查点创建和恢复速度。
  • • 以内存速度保存系统状态。
  • • 在断电时以内存速度保护缓存数据。

E3.S/L 设备为主流和高端服务器提供了新一类非易失性设备:

  • • 单端口设计适用于主流和高端服务器。
  • • 双端口设计适用于高端、高可用性服务器。
  • • 设备集成能量源模块(如电池或超级电容),确保数据持久性。

实现非易失性的两种方法

  • • NV-CMM:符合JEDEC标准的NVDIMM,带有CXL接口前端。
  • • 混合内存/闪存设备:也称为内存语义设备或CMM-H(用于提供持久性和非易失性存储的混合存储方案)。

非易失性CXL模块的特点

系统兼容性设计

  • • 基于经典NVDIMM的进化版本。
  • • 系统必须支持在断电时生成CXL GPF(通用命令)命令,并留出足够的时间进行数据恢复。

集成能量源模块(ESM)

  • • 内置的能量源模块,便于维护和服务。
  • • 提高模块的整体可靠性,使其在断电时依然可以保存数据。

相较于传统DIMM的显著改进

  • • 消除内存平衡问题:不再需要不同速度的DDR模块间进行搭配。
  • • 降低对平台BIOS的依赖:独立性更强。
  • • 不依赖SMBus板架构:简化管理和配置。
  • • 单一FRU(现场可更换单元):将内存和ESM整合为一个可替换模块,简化维护。

结构组成(左侧图示)

双端口DRAM阵列和Flash存储:用于数据存储和保护。

NV控制器:管理非易失性操作。

CXL控制器:负责与CXL接口通信。

支持EDSFF CXL x8或双端口CXL x4配置(仅适用于双端口版本)。

CXL支持现状

1. 服务器支持

  • • 虽然服务器支持自2024年第二季度以来有所改善,但仍然不够全面。
  • • 宣传的支持并不总意味着“开箱即用”的支持,因此可能需要进一步配置或更新。

2. 服务器BIOS版本的重要性

  • • AMD和Intel对CXL有最低BIOS版本要求,确保兼容性和稳定性。
  • • 需要联系服务器供应商以获取最新的BIOS支持,特别是非易失性内存和GPF(通用命令)支持。

3. 操作系统支持

  • Linux:推荐使用6.5或更高版本的内核,6.7被认为是最稳定的版本。
  • Windows:自2022年起支持CXL,显示为附加内存,但缺乏通用的管理工具。

要点小结

  1. 1. CXL是一种内存接口标准,可用于服务器和工作站等高性能计算设备中。
  2. 2. CXL技术可提供更快的数据传输速度和更低的延迟(相较于NAND),从而提高系统性能。
  3. 3. CXL内存模块可以实现非易失性存储,并支持备份能源以保护数据。
  4. 4. CXL技术可以减少对平台BIOS和管理系统的依赖,提高系统的兼容性和可靠性。
  5. 5. 目前,CXL技术已经得到一些服务器厂商的支持,但需要更新的硬件和软件配置才能发挥其优势。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 问题意识
    • CXL 落地路线(积极预测)
    • TCO评估
    • 传统CXL卡和纤薄型CXL卡的比较
    • 非易失性内存需求
    • 非易失性CXL模块的特点
    • CXL支持现状
  • 要点小结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档