
1. CXL 未来5年市场空间如何?CXL扩展是否成为必选?
2. 场景案例下的,CXL内存扩展的成本分析?有多大优势?
3. E.3接口形态在不同场景下的选择?

左图是未来5年,CXL服务器出货量占比预测,2025年达到3%,2027年将进入快车道,随后快速增长;
右图是CXL DRAM 市场份额预测,与出货量占比趋同,2027年后开始快速增长,复合年均增长率(CAGR)达到48%。

服务器进入众核时代,且不断增加,AMD最新发布的第五代EPYC(霄龙)处理器,代号为“Turin”,单颗处理器最高可配置192个核心(384个线程)。
基于直连内存架构,数据/内存 密集型场景,主存控制器通道会成为新的带宽瓶颈(时延方面还是DIMM通道更快,具备优势;但带宽受限),如右图1所示。
右图2示意,CXL内存池可分配定量DRAM直通给多个(甚至所有)核心,从而实现处理核数据专属通道,存在的短板,如图中标注所示:CXL的通道速度有所下降,“mph”是“miles per hour”(英里/小时)的缩写,表示数据传输速度的对比。

传统情况下,不使用CXL时,要扩展内存需要增加更多的CPU和内存模块。
特点:
增加内存意味着要增加更多的CPU模块,这样会导致硬件需求增加,进而提高系统成本。
使用CXL后,可以通过CXL来扩展CPU的内存。
特点:
不再局限于增加CPU来扩展内存。
可以在现有的CPU上增加CXL内存模块,从而提高灵活性和效率。
CXL易于采用:可以通过CXL内存扩展卡利用低成本的RDIMM(适用于现有服务器机箱)或使用新的E3.S模块(适用于新型服务器机箱)。
附加的CXL优势:
系统成本节约:使用CXL可节约系统成本达50%-60%。

描述:在这一阶段,CXL 1.1和2.0版本将被用于支持服务器的内存扩展。
硬件:支持1至8个CXL扩展卡(如RDIMM扩展)或1至4个CXL扩展E3.S模块。
特性:通过CXL扩展卡或E3.S模块,服务器可以增加更多的内存容量,但主要还是通过扩展卡直接连接CPU。
描述:进入内存池化阶段,CXL 1.1/2.0将支持直接或通过交换方式连接,形成内存池。
硬件:多个服务器可以连接到一个整合了交换功能的内存池设备中。
特性:在内存池化模式下,多台服务器可以共享一个集中管理的内存池,使内存资源的利用更加灵活和高效。
描述:在这一阶段,CXL 3.1版本将支持直接和交换式的内存共享连接。
硬件:系统中将包括PCIe CXL 3.1接口和GPU+CXL接口等I/O组件,并通过外部CXL交换设备连接到多个CXL内存设备。
特性:不同的计算资源(如CPU、GPU等)可以通过CXL 3.1实现更加动态和高效的内存共享,进一步提升系统性能和资源利用率。

利用常用的DDR5 RDIMM:
服务器可以使用市场上常见的DDR5 RDIMM模块,通过CXL扩展这些内存的容量。
更高的电力需求:
八通道的RDIMM模块(Octal RDIMMs)需要更高的功率,约为120-130瓦。
服务器选项:
市面上有多种现有的服务器选项,已经设计支持更高功耗的GPU,且带有辅助电源接口,这些服务器可以被重新配置为内存服务器来支持更大的RDIMM容量。
应用示例:
通过CXL,可以在一个2U的8-GPU服务器中,将RDIMM的数量从24扩展到88个,这样有效地增加了系统内存容量。
对比表格(RDIMMs容量对比 - 无CXL vs. 使用CXL):
96GB RDIMMs:无CXL时最大容量为2304GB,使用CXL后扩展到8448GB。
128GB RDIMMs:无CXL时最大容量为3072GB,使用CXL后扩展到11264GB。
256GB RDIMMs:无CXL时最大容量为6114GB,使用CXL后扩展到22528GB。
Note:CXL加持下的GPU服务器将成为内存”巨兽“。

需求:
需要在4台1U服务器中提供20TB(5TB/台)的内存,用于大规模的内存分析工作负载,且总成本控制在20万美元以内。
无CXL方案的限制:
在没有CXL的情况下,唯一可行的方案是使用256GB TSV(硅通孔)技术的DIMMs(是64GB方案的四倍),但这选项价格较高。
使用CXL的标准GPU服务器:
配置了4个带有8-DIMM的CXL扩展卡,额外增加了32个DIMM插槽,使得内存扩展更具灵活性。
成本优势:
使用CXL方案可实现高达66%的系统成本降低。
成本对比图(右侧):
图表展示了不同配置的成本比较,绿色条代表系统总成本,蓝色线代表所需服务器数量。
A方案(256GB DDR5,无CXL):系统总成本为380,400美元,使用4台服务器。
G方案(96GB DDR5 + 96GB CXL):系统成本降至120,560美元,仍然需要4台服务器。
I方案(128GB DDR5 + 128GB DDR4 CXL):成本为206,100美元,仅需3台服务器。

图左是不同规格 DDR5 内存报价,容量越大,制造工艺越复杂,成本越高;
图右比较了组成1TB系统内存的两种方案:
传统配置方案(左侧):
使用8个128GB的DDR5 RDIMM模块实现1TB系统内存。
总成本约为$8,000。
CXL扩展方案(右侧):
使用8个64GB DDR5 RDIMM模块,加上一个8-DIMM的CXL扩展卡,每个插槽装载64GB的RDIMM模块,实现1TB系统内存。
总成本约为$5,000。
成本对比:
使用CXL扩展方案的成本比直接使用高容量128GB RDIMM模块方案降低了约38%。
Note:系统内存从传统方案的统一存储池,演变为直连内存和CXL内存,后者在实际应用中的时延仍较为明显。

如何更经济的在服务器主板上集成CXL内存扩展?
传统CXL扩展卡的限制(左上)
常规的CXL扩展卡占用了两个PCIe插槽(额外供电设备+散热考虑),并阻挡了其他卡的连接。
这种设计可能限制了服务器中其他扩展卡的使用空间,特别是在空间受限的1U和2U服务器中。
4-DIMM Slim Board(4-DIMM纤薄板卡,右侧)
这种新设计的纤薄CXL卡仅占用一个插槽。
更高的密度设计使其可以充分利用所有PCIe插槽,同时兼容1U系统。
DIMM模块垂直安装在独特的柔性板上,有效节省空间。
主要特性(右侧说明)
纤薄CXL卡选项:利用RDIMM,仅占用一个插槽位置,适用于更常见的机箱和电源单元(PSU)。
电源需求:仅通过PCIe插槽供电,不需要额外的辅助电源(AUX power)。
灵活性选项:
支持单x16接口以提升性能。
支持双x8接口以增加容量,可通过单个扩展卡插入多个DIMM模块。

不同E3接口形态CXL卡场景区分


内存密集型应用(如AI/ML)需要能够在内存速度下工作的非易失性选项,以确保系统状态和缓存数据的安全。
E3.S/L 设备为主流和高端服务器提供了新一类非易失性设备:
实现非易失性的两种方法

系统兼容性设计
集成能量源模块(ESM)
相较于传统DIMM的显著改进
结构组成(左侧图示)
双端口DRAM阵列和Flash存储:用于数据存储和保护。
NV控制器:管理非易失性操作。
CXL控制器:负责与CXL接口通信。
支持EDSFF CXL x8或双端口CXL x4配置(仅适用于双端口版本)。

1. 服务器支持
2. 服务器BIOS版本的重要性
3. 操作系统支持