深入理解DRAM-4（结）：未来与CXL

数据存储前沿技术

发布于 2025-02-11 16:41:37

790

文章被收录于专栏：存储公众号：王知鱼存储公众号：王知鱼

DRAM 容量焦虑和现实

1. 长期关注于提高DIMM 带宽，使得对DIMM物理结构上的优化停滞不前，而应用场景（如AI、自动驾驶）对DRAM的容量需求一直在上涨；
2. 业界提出3DS的制造工艺，通过不断堆叠DRAM层数来实现容量的线性增加；
3. 随着DRAM 层数的增加，又将出现新问题：
- • 堆叠器件的中间位置将成为高温灾区，因温度造成的频繁刷新，将严重影响DRAM的可用带宽（每次刷新消耗11-21%理论带宽）；
- • 器件量产率不可控，当前单层良产率能达到97%，看似不错，可一旦按16层堆叠，仅有61%良产率；
- • 3DS的工艺和产能尚不成熟，无法满足产业需求。

考虑到以上因素，目前3DS生产工艺，停留在2层堆叠，即DDP（Dual Die Package ），先进厂商提出4D-NAND概念[1]。

坐以待毙是下策

内存池化早在 ARM 多核领域就有过考虑，最早是高频交易（如数据库、电信通话等）低时延场景，通过共享一台服务器内存的方式来优化虚拟机性能。

HyperTransport和Quick Path互连等总线已经存在了几十年，

NUMA架构创建了一个资源层次结构：

• 离CPU最近的内存访问速度最快；
• 稍远距离的内存，访问速率下降；
• 访问距离最远的内存，速度相应最慢。

业界已经出现根据访问延迟调整数据位置的智能软件。

现实中NUMA似乎是多核场景（ARM）策略，在Intel主导的服务器市场，并没有多少实际投入和实践。

DRAM的”困境“

• 每个通道只能安装一个DIMM（Dual In-line Memory Module，内存条）。限制内存扩展的能力，因为在多通道系统中，如果每个通道只能安装一个DIMM，那么内存总量的增长就会受限。
• DRAM（动态随机存取存储器）在达到32Gb（十进制的32吉比特，相当于4GB）时会遇到瓶颈（此处应该是指单个颗粒的容量）。这可能意味着当前的技术限制使得内存容量难以进一步扩大。
• 人工智能（AI）的发展需要更大的内存容量。由于AI算法和模型的复杂性，它们往往需要大量的内存来运行，所以内存容量的限制可能会阻碍AI的应用发展。

CXL

• CXL允许几乎无限的内存扩展。通过CXL连接的内存可以突破传统内存插槽限制，实现更大规模内存扩展。
• 内存池化功能允许未使用的内存被重新分配。通过CXL连接的内存可以组成一个共享的内存池，让系统能够灵活地管理内存资源，将未充分利用的内存重新分配给需要更多内存的任务，提高资源利用率。

明日之星：CXL ？

左图是对CXL技术实现的完整架构，核心是基于CXL协议的DRAM控制器（CXL Controller），通过CXL 交换机连接到Host 节点从而实现内存池化后的资源共享，DTL核心组件及工作原理，另文详解。

值得关注的是，Bill 并未一股脑肯定CXL未来统治地位，而是追忆起傲腾往事，并直接表露DAX（Direct Access）是否因为Optane技术的消亡而停滞不前的顾虑。

或许市场就是如此残酷，Intel这次押宝CXL在逻辑芯片市场再创辉煌了。

随着CXL作为扩展PCIe的统一接口，加入数据存储大家庭，热数据场景除了直接访问（DAS）的DRAM和”不怎么争气“的NUMA[2] ，基于CXL扩展的DRAM内存池将作为最大活跃数据缓存池，从而为企业市场的AI/ML及自动驾驶的IT可行性奠定基础。

图中说明了三种CXL访存方式：

1. CXL Memory 直接通过PCIe口连接到母版，此法效率一等，称之为 DRAM CXL direct；
2. CXL Memory 通过一层 CXL交换机连接到PCIe 口，此法效率二等，称之为 DRAM CXL 1 hop；
3. 诸如此类，经过2次CXL交换机连接的，效率三等，DRAM CXL 2 hops，但容量却可以做到最大。

来畅想下CXL 实现后的内存访问方式，CXL内存模块可以有三种分配方式：

• 可以专属于一个处理器；
• 可以分块给不同的处理器使用；
• 指定Moudle可被多个处理器同时共享（有点VMware中VMFS的感觉）。

存在的问题是：当同一内存区域被多个处理器共享写入时，缓存一致性的反向失效是如何工作的？

小结

DRAM容量局限与3DS技术难题：长期对DIMM带宽的追求忽视了结构优化，3DS堆叠工艺虽提升容量，但面临热管理、低良率及技术成熟度挑战，导致实际应用受限于DDP（双芯片封装）。

CXL内存池化革新：CXL技术克服传统DIMM插槽数量限制，允许内存资源的灵活扩展与池化，尤其在AI/ML和自动驾驶领域，通过智能管理未使用内存，显著增强资源利用效率。

CXL架构的内存访问模式：CXL支持内存模块的专属、分块或共享分配，但多处理器共享写入引发缓存一致性问题，其反向失效机制的具体实现成为行业关注焦点。

引用链接

[1] 4D-NAND概念: https://www.dramx.com/News/Memory/20240808-36833.html [2] ”不怎么争气“的NUMA: https://frankdenneman.nl/2022/09/21/sub-numa-clustering/

---【本文完】---

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-08-14，如有侵权请联系 cloudcommunity@tencent.com 删除

内存