首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Bill Gervasi:又读 DRAM(FMS2024)

Bill Gervasi:又读 DRAM(FMS2024)

作者头像
数据存储前沿技术
发布于 2025-02-11 09:19:14
发布于 2025-02-11 09:19:14
1900
举报

按:Bill在去年FMS峰会上对DRAM技术发展做了详细介绍(文末推荐阅读),来看看在FMS-2024上分享了哪些新观点

Bill Gervasi

关于Wolley [1]

Wolley成立于2016年,总部位于加利福尼亚州圣何塞,研发团队位于台湾新竹,最初开发了SCM控制器技术。在此基础上,已将重点转移到尖端的CXL IP和NVMe over CXL解决方案上。通过将NVMe存储与DRAM集成,NVMe over CXL解决方案显著提高了内存容量和带宽,满足了现代数据中心人工智能高性能计算应用的高性能需求。

Note:Wolley是CXL解决方案供应商,基于此来理解今年报告题目的含义:多样化平台上的DARM,想必少不了大篇幅介绍CXL最新进展。

DRAM 技术挑战

强调DRAM存储器的核心架构一直没有发生变化,业界对DRAM的优化在于不断提高I/O效率

图主要表达了DDR5内存从4800MHz到6400MHz频率提升后在随机访问性能上的改进。

关键点:

  1. 1. 时序对比:图片详细比较了DDR5-4800和DDR5-6400的关键时序参数。
  2. 2. 内存访问流程:清晰展示了从RAS(行地址选通)到CAS(列地址选通),再到数据传输的整个过程。
  3. 3. 性能提升:突出显示了从DDR5-4800到DDR5-6400,随机访问突发时间从31.3ns减少到30.2ns,实现了3.5%的性能提升

这张图非常熟悉了,分层存储是IT数据流的典型架构。

作者指出该图有个小缺点,即没有没有显示冗余性,且随着数据向上层介质流动,数据接口的带宽/流量显著增大

回顾了计算机系统内存扩展的技术发展路径

  • • 1980年代基于EMS(Extended Memory Storage)实现内存扩展
  • • NUMA在多核处理器上的内存QoS实践,需要:智能软件根据访问延迟调整数据位置
  • • 今天多层互联技术及CXL来实现内存扩展、共享

CXL 最新进展

NVLink和UALink对CXL会有什么影响?

要点:

  • • 这些链接用于xPU到xPU的连接
  • • 不用于内存扩展,除了NUMA
  • • CXL类型2可能会消失
  • • CXL类型3仍然需要

Note: Bill 此处的强调是引人发思的,业界有多种SoC上的互联技术,CXL是基于PCIe的,随着NVlink主导的生态在当前阶段广泛投资,NV的互联技术有巨大先发优势,这对CXL的生态也必将造成影响。

关于CXL type 介绍,推荐阅读

CXL 最新进展 CXL 3.1 (2023.11发布)

与3.0版本相比,增加了以下功能:

  • • 组织管理器API定义用于PBR交换机
  • • 使用全局集成内存(GIM)概念的主机间通信
  • • 受信任执行环境(TEE)安全协议
  • • 内存扩展增强(多达34位的元数据,RAS能力增强)

Bill 刷新了分层存储架构,关注其中CXL扩展部分,并指出随着技术发展,这个层级可能随时会发生变化。

图左显示了HBM在xPU的集成,单个16GB HBM 和5个HBM集成的容量、带宽、引脚数量。

图右比较70B模型FP16精度,不同数量H100时的带宽使用率。

结论:更多GPU集成的系统,模型推理的性能会改善,但带宽利用率却在降低。

DRAM读取机制与能效分析

图主要阐述了CPU缓存访问中存在的数据浪费问题。图片揭示了以下几个关键点:

  1. 1. 数据类型多样性:CPU寄存器需要处理不同大小的数据类型(如INT8, INT16, FP16, FP32, FP64等),这本身就可能导致某些内存空间的浪费。
  2. 2. 缓存行标准:行业标准的CPU缓存行大小为64字节,这是数据从内存加载到缓存时的最小单位。
  3. 3. 数据大小与缓存行不匹配:图片举例说明,当应用程序仅需要1位信息(如是/否答案)时,仍然必须访问整个64字节的缓存行。
  4. 4. 巨大的浪费比例:这种不匹配导致了高达99.8%的数据访问浪费,因为大部分被加载到缓存中的数据实际上并未被使用。
  5. 5. 性能影响:这种浪费不仅影响存储效率,还可能对系统性能产生负面影响,因为它增加了不必要的数据传输和处理。
  6. 6. 优化挑战:图片暗示了在CPU架构和软件设计中优化数据访问模式的重要性,以减少这种浪费并提高整体系统效率。

存储器内部的能耗分布

  • • 刷新消耗的功耗 >10倍的空闲功耗
  • • 激活使用11%的功耗
  • • 预充电使用21%的功耗

refresh操作是DDR中能耗主要来源。

这张图描述了DRAM的访问程序和开放页面模式的效率问题。

  1. 1. 关键技术特性:
    • • DRAM访问涉及ACTIVATE、READ、Write和PRECHARGE四个步骤
    • • 每次ACTIVATE和PRECHARGE操作涉及8192位数据
    • • READ/Write操作仅传输128位或64位数据
  2. 2. 效率分析:
    • 开放页面模式被认为是"严重低效"的
    • • 原因在于每次访问需要移动大量数据(8192位),但实际使用的只有很小一部分(128位或64位)
  3. 3. 数据比例:
    • • 感应放大器容量占阵列的1.5%
    • • 128位列仅占阵列的0.025%,64位列占0.012%

图主要表达了CXL DDR5控制器的结构和DRAM功耗优化策略。

  1. 1. DRAM功耗优化策略
    • • 使用关闭页面模式避免活动待机功耗损失
    • • 对不频繁使用的内存区域使用CKE(时钟使能)和自刷新技术
    • • 对未分配的DRAM应用最大节能模式
  2. 2. CXL技术特性
    • • 支持非确定性操作,允许根据访问模式和用户配置灵活启用或禁用节能模式
    • • 强调模式切换的延迟损失可以忽略不计,特别是对于长时间未访问的内存区域

图片主要阐述了在优化系统功耗时,软件优化的重要性及具体方法。主要观点包括:

  1. 1. 功耗优化不能仅依赖硬件,软件优化同样关键。
  2. 2. 软件优化的具体方法:
    • • 选择合适的编程语言
    • • 使用编译器而非解释器
    • • 采用高效的数据访问机制(如DAX)
    • • 合理选择数据类型,避免过度使用高精度类型
  3. 3. 强调了在矩阵计算中避免使用不必要变量的重要性,指出这可能对性能造成指数级的负面影响。
  4. 4. 提出了使用内存压缩技术来减少系统开销的建议。

总结

  1. 1. DRAM技术挑战:核心架构一直没有发生变化,业界对DRAM的优化在于不断提高I/O效率,计算单元对DRAM核心诉求是提高带宽上限,随着多核处理器的不断推出,如何提高DRAM带宽是业界一直思考的问题。
  2. 2. CXL最新进展 :23.11发布CXL3.1,简化维护、增强全局内存通信和安全机制;NVlink等互联技术对CXL生态可能产生影响。
  3. 3. DRAM读取机制与能效分析:缓存开放页面相对低效,产生大量能耗;结合DRAM功耗优化策略和CXL特性来改善存储器整体能效。
引用链接

[1] 关于Wolley : http://wolleytech.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • DRAM 技术挑战
  • CXL 最新进展
  • DRAM读取机制与能效分析
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档