Bill Gervasi：又读 DRAM（FMS2024）

数据存储前沿技术

发布于 2025-02-11 09:19:14

1900

文章被收录于专栏：存储公众号：王知鱼存储公众号：王知鱼

按：Bill在去年FMS峰会上对DRAM技术发展做了详细介绍（文末推荐阅读），来看看在FMS-2024上分享了哪些新观点

Bill Gervasi

关于Wolley [1]

Wolley成立于2016年，总部位于加利福尼亚州圣何塞，研发团队位于台湾新竹，最初开发了SCM控制器技术。在此基础上，已将重点转移到尖端的CXL IP和NVMe over CXL解决方案上。通过将NVMe存储与DRAM集成，NVMe over CXL解决方案显著提高了内存容量和带宽，满足了现代数据中心、人工智能和高性能计算应用的高性能需求。

Note：Wolley是CXL解决方案供应商，基于此来理解今年报告题目的含义：多样化平台上的DARM，想必少不了大篇幅介绍CXL最新进展。

DRAM 技术挑战

强调DRAM存储器的核心架构一直没有发生变化，业界对DRAM的优化在于不断提高I/O效率。

图主要表达了DDR5内存从4800MHz到6400MHz频率提升后在随机访问性能上的改进。

关键点：

1. 时序对比：图片详细比较了DDR5-4800和DDR5-6400的关键时序参数。
2. 内存访问流程：清晰展示了从RAS（行地址选通）到CAS（列地址选通），再到数据传输的整个过程。
3. 性能提升：突出显示了从DDR5-4800到DDR5-6400，随机访问突发时间从31.3ns减少到30.2ns，实现了3.5%的性能提升。

这张图非常熟悉了，分层存储是IT数据流的典型架构。

作者指出该图有个小缺点，即没有没有显示冗余性，且随着数据向上层介质流动，数据接口的带宽/流量显著增大。

回顾了计算机系统内存扩展的技术发展路径

• 1980年代基于EMS（Extended Memory Storage）实现内存扩展
• NUMA在多核处理器上的内存QoS实践，需要：智能软件根据访问延迟调整数据位置
• 今天多层互联技术及CXL来实现内存扩展、共享

CXL 最新进展

NVLink和UALink对CXL会有什么影响？

要点：

• 这些链接用于xPU到xPU的连接
• 不用于内存扩展，除了NUMA
• CXL类型2可能会消失
• CXL类型3仍然需要

Note: Bill 此处的强调是引人发思的，业界有多种SoC上的互联技术，CXL是基于PCIe的，随着NVlink主导的生态在当前阶段广泛投资，NV的互联技术有巨大先发优势，这对CXL的生态也必将造成影响。

关于CXL type 介绍，推荐阅读：

CXL 最新进展 CXL 3.1 （2023.11发布）

与3.0版本相比，增加了以下功能：

• 组织管理器API定义用于PBR交换机
• 使用全局集成内存（GIM）概念的主机间通信
• 受信任执行环境（TEE）安全协议
• 内存扩展增强（多达34位的元数据，RAS能力增强）

Bill 刷新了分层存储架构，关注其中CXL扩展部分，并指出随着技术发展，这个层级可能随时会发生变化。

图左显示了HBM在xPU的集成，单个16GB HBM 和5个HBM集成的容量、带宽、引脚数量。

图右比较70B模型FP16精度，不同数量H100时的带宽使用率。

结论：更多GPU集成的系统，模型推理的性能会改善，但带宽利用率却在降低。

DRAM读取机制与能效分析

图主要阐述了CPU缓存访问中存在的数据浪费问题。图片揭示了以下几个关键点：

1. 数据类型多样性：CPU寄存器需要处理不同大小的数据类型（如INT8, INT16, FP16, FP32, FP64等），这本身就可能导致某些内存空间的浪费。
2. 缓存行标准：行业标准的CPU缓存行大小为64字节，这是数据从内存加载到缓存时的最小单位。
3. 数据大小与缓存行不匹配：图片举例说明，当应用程序仅需要1位信息（如是/否答案）时，仍然必须访问整个64字节的缓存行。
4. 巨大的浪费比例：这种不匹配导致了高达99.8%的数据访问浪费，因为大部分被加载到缓存中的数据实际上并未被使用。
5. 性能影响：这种浪费不仅影响存储效率，还可能对系统性能产生负面影响，因为它增加了不必要的数据传输和处理。
6. 优化挑战：图片暗示了在CPU架构和软件设计中优化数据访问模式的重要性，以减少这种浪费并提高整体系统效率。

存储器内部的能耗分布

• 刷新消耗的功耗 >10倍的空闲功耗
• 激活使用11%的功耗
• 预充电使用21%的功耗

refresh操作是DDR中能耗主要来源。

这张图描述了DRAM的访问程序和开放页面模式的效率问题。

1. 关键技术特性：
- • DRAM访问涉及ACTIVATE、READ、Write和PRECHARGE四个步骤
- • 每次ACTIVATE和PRECHARGE操作涉及8192位数据
- • READ/Write操作仅传输128位或64位数据
2. 效率分析：
- • 开放页面模式被认为是"严重低效"的
- • 原因在于每次访问需要移动大量数据（8192位），但实际使用的只有很小一部分（128位或64位）
3. 数据比例：
- • 感应放大器容量占阵列的1.5%
- • 128位列仅占阵列的0.025%，64位列占0.012%

图主要表达了CXL DDR5控制器的结构和DRAM功耗优化策略。

1. DRAM功耗优化策略：
- • 使用关闭页面模式避免活动待机功耗损失
- • 对不频繁使用的内存区域使用CKE（时钟使能）和自刷新技术
- • 对未分配的DRAM应用最大节能模式
2. CXL技术特性：
- • 支持非确定性操作，允许根据访问模式和用户配置灵活启用或禁用节能模式
- • 强调模式切换的延迟损失可以忽略不计，特别是对于长时间未访问的内存区域

图片主要阐述了在优化系统功耗时，软件优化的重要性及具体方法。主要观点包括：

1. 功耗优化不能仅依赖硬件，软件优化同样关键。
2. 软件优化的具体方法：
- • 选择合适的编程语言
- • 使用编译器而非解释器
- • 采用高效的数据访问机制（如DAX）
- • 合理选择数据类型，避免过度使用高精度类型
3. 强调了在矩阵计算中避免使用不必要变量的重要性，指出这可能对性能造成指数级的负面影响。
4. 提出了使用内存压缩技术来减少系统开销的建议。

总结

1. DRAM技术挑战：核心架构一直没有发生变化，业界对DRAM的优化在于不断提高I/O效率，计算单元对DRAM核心诉求是提高带宽上限，随着多核处理器的不断推出，如何提高DRAM带宽是业界一直思考的问题。
2. CXL最新进展 ：23.11发布CXL3.1，简化维护、增强全局内存通信和安全机制；NVlink等互联技术对CXL生态可能产生影响。
3. DRAM读取机制与能效分析：缓存开放页面相对低效，产生大量能耗；结合DRAM功耗优化策略和CXL特性来改善存储器整体能效。