按:Bill在去年FMS峰会上对DRAM技术发展做了详细介绍(文末推荐阅读),来看看在FMS-2024上分享了哪些新观点
Bill Gervasi
关于Wolley [1]
Wolley成立于2016年,总部位于加利福尼亚州圣何塞,研发团队位于台湾新竹,最初开发了SCM控制器技术。在此基础上,已将重点转移到尖端的CXL IP和NVMe over CXL解决方案上。通过将NVMe存储与DRAM集成,NVMe over CXL解决方案显著提高了内存容量和带宽,满足了现代数据中心 、人工智能 和高性能计算 应用的高性能需求。
Note :Wolley是CXL解决方案供应商,基于此来理解今年报告题目的含义:多样化平台上的DARM,想必少不了大篇幅介绍CXL最新进展。
DRAM 技术挑战 强调DRAM存储器的核心架构一直没有发生变化,业界对DRAM的优化在于不断提高I/O效率 。
图主要表达了DDR5内存从4800MHz到6400MHz频率提升后在随机访问性能上的改进。
关键点:
1. 时序对比:图片详细比较了DDR5-4800和DDR5-6400的关键时序参数。 2. 内存访问流程:清晰展示了从RAS(行地址选通)到CAS(列地址选通),再到数据传输的整个过程。 3. 性能提升:突出显示了从DDR5-4800到DDR5-6400 ,随机访问突发时间从31.3ns减少到30.2ns,实现了3.5%的性能提升 。 这张图非常熟悉了,分层存储是IT数据流 的典型架构。
作者指出该图有个小缺点,即没有没有显示冗余性,且随着数据向上层介质流动, 数据接口 的带宽/流量显著增大 。
回顾了计算机系统内存扩展的技术发展路径
• 1980年代基于EMS(Extended Memory Storage)实现内存扩展 • NUMA在多核处理器上的内存QoS实践,需要:智能软件根据访问延迟调整数据位置 • 今天多层互联技术及CXL来实现内存扩展、共享 CXL 最新进展 NVLink和UALink对CXL会有什么影响?
要点:
• 这些链接用于xPU到xPU的连接 • 不用于内存扩展,除了NUMA • CXL类型2可能会消失 • CXL类型3仍然需要 Note: Bill 此处的强调是引人发思的,业界有多种SoC上的互联技术,CXL是基于PCIe的,随着NVlink主导的生态在当前阶段广泛投资,NV的互联技术有巨大先发优势,这对CXL的生态也必将造成影响。
关于CXL type 介绍,推荐阅读 :
CXL 最新进展 CXL 3.1 (2023.11发布)
与3.0版本相比,增加了以下功能:
• 组织管理器API 定义用于PBR交换机 • 使用全局集成内存(GIM)概念的主机间通信 • 受信任执行环境(TEE)安全协议 • 内存扩展增强(多达34位的元数据,RAS能力增强) Bill 刷新了分层存储架构,关注其中CXL扩展部分,并指出随着技术发展,这个层级可能随时会发生变化。
图左显示了HBM在xPU的集成,单个16GB HBM 和5个HBM集成的容量、带宽、引脚数量。
图右比较70B模型FP16精度,不同数量H100时的带宽使用率。
结论:更多 GPU 集成的系统,模型推理的性能会改善,但带宽利用率却在降低。
DRAM读取机制与能效分析 图主要阐述了CPU缓存访问中存在的数据浪费问题。图片揭示了以下几个关键点:
1. 数据类型多样性:CPU寄存器需要处理不同大小的数据类型(如INT8, INT16, FP16, FP32, FP64等),这本身就可能导致某些内存空间的浪费。 2. 缓存行标准:行业标准的CPU缓存行大小为64字节,这是数据从内存加载到缓存时的最小单位。 3. 数据大小与缓存行不匹配:图片举例说明,当应用程序仅需要1位信息(如是/否答案)时,仍然必须访问整个64字节的缓存行。 4. 巨大的浪费比例:这种不匹配导致了高达99.8%的数据访问浪费,因为大部分被加载到缓存中的数据实际上并未被使用。 5. 性能影响:这种浪费不仅影响存储效率,还可能对系统性能产生负面影响,因为它增加了不必要的数据传输和处理。 6. 优化挑战:图片暗示了在CPU架构和软件设计 中优化数据访问模式的重要性,以减少这种浪费并提高整体系统效率。 存储器内部的能耗分布
• 刷新消耗的功耗 >10倍的空闲功耗 • 激活使用11%的功耗 • 预充电使用21%的功耗 refresh操作是DDR中能耗主要来源。
这张图描述了DRAM的访问程序和开放页面模式的效率问题。
1. 关键技术特性:• DRAM访问涉及ACTIVATE、READ、Write和PRECHARGE四个步骤 • 每次ACTIVATE和PRECHARGE操作涉及8192位数据 • READ/Write操作仅传输128位或64位数据 2. 效率分析:• 开放页面模式被认为是"严重低效"的 • 原因在于每次访问需要移动大量数据(8192位),但实际使用的只有很小一部分(128位或64位) 3. 数据比例:• 感应放大器容量占阵列的1.5% • 128位列仅占阵列的0.025%,64位列占0.012% 图主要表达了CXL DDR5控制器的结构和DRAM功耗优化策略。
1. DRAM功耗优化策略 :• 使用关闭页面模式避免活动待机功耗损失 • 对不频繁使用的内存区域使用CKE(时钟使能)和自刷新技术 • 对未分配的DRAM应用最大节能模式 2. CXL技术特性 :• 支持非确定性操作,允许根据访问模式和用户配置灵活启用或禁用节能模式 • 强调模式切换的延迟损失可以忽略不计,特别是对于长时间未访问的内存区域 图片主要阐述了在优化系统功耗时,软件优化的重要性及具体方法。主要观点包括:
1. 功耗优化不能仅依赖硬件,软件优化同样关键。 2. 软件优化的具体方法:• 选择合适的编程语言 • 使用编译器 而非解释器 • 采用高效的数据访问机制(如DAX) • 合理选择数据类型,避免过度使用高精度类型 3. 强调了在矩阵计算中避免使用不必要变量的重要性,指出这可能对性能造成指数级的负面影响。 4. 提出了使用内存压缩技术来减少系统开销的建议。 总结 1. DRAM技术挑战 :核心架构一直没有发生变化,业界对DRAM的优化在于不断提高I/O效率,计算单元对DRAM核心诉求是提高带宽上限,随着多核处理器的不断推出,如何提高DRAM带宽是业界一直思考的问题。 2. CXL最新进展 :23.11发布CXL3.1,简化维护、增强全局内存通信和安全机制;NVlink等互联技术对CXL生态可能产生影响。 3. DRAM读取机制与能效分析 :缓存开放页面相对低效,产生大量能耗;结合DRAM功耗优化策略和CXL特性来改善存储器整体能效。 引用链接 [1]
关于Wolley : http://wolleytech.com