前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >深入理解DRAM-4(结):未来与CXL

深入理解DRAM-4(结):未来与CXL

作者头像
数据存储前沿技术
发布2025-02-11 16:41:37
发布2025-02-11 16:41:37
790
举报

DRAM 容量焦虑和现实

  1. 1. 长期关注于提高DIMM 带宽,使得对DIMM物理结构上的优化停滞不前,而应用场景(如AI、自动驾驶)对DRAM的容量需求一直在上涨;
  2. 2. 业界提出3DS的制造工艺,通过不断堆叠DRAM层数来实现容量的线性增加;
  3. 3. 随着DRAM 层数的增加,又将出现新问题:
    • • 堆叠器件的中间位置将成为高温灾区,因温度造成的频繁刷新,将严重影响DRAM的可用带宽(每次刷新消耗11-21%理论带宽);
    • • 器件量产率不可控,当前单层良产率能达到97%,看似不错,可一旦按16层堆叠,仅有61%良产率;
    • • 3DS的工艺和产能尚不成熟,无法满足产业需求。

考虑到以上因素,目前3DS生产工艺,停留在2层堆叠,即DDP(Dual Die Package ),先进厂商提出4D-NAND概念[1]。

坐以待毙是下策

内存池化早在 ARM 多核领域就有过考虑,最早是高频交易(如数据库、电信通话等)低时延场景,通过共享一台服务器内存的方式来优化虚拟机性能。

HyperTransport和Quick Path互连等总线已经存在了几十年,

NUMA架构创建了一个资源层次结构 :

  • • 离CPU最近的内存访问速度最快 ;
  • • 稍远距离的内存,访问速率下降;
  • • 访问距离最远的内存,速度相应最慢。

业界已经出现根据访问延迟调整数据位置的智能软件。

现实中NUMA似乎是多核场景(ARM)策略,在Intel主导的服务器市场,并没有多少实际投入和实践。

DRAM的”困境“

  • • 每个通道只能安装一个DIMM(Dual In-line Memory Module,内存条)。限制内存扩展的能力,因为在多通道系统中,如果每个通道只能安装一个DIMM,那么内存总量的增长就会受限。
  • • DRAM(动态随机存取存储器)在达到32Gb(十进制的32吉比特,相当于4GB)时会遇到瓶颈(此处应该是指单个颗粒的容量)。这可能意味着当前的技术限制使得内存容量难以进一步扩大。
  • • 人工智能(AI)的发展需要更大的内存容量。由于AI算法和模型的复杂性,它们往往需要大量的内存来运行,所以内存容量的限制可能会阻碍AI的应用发展。

CXL

  • • CXL允许几乎无限的内存扩展。通过CXL连接的内存可以突破传统内存插槽限制,实现更大规模内存扩展。
  • • 内存池化功能允许未使用的内存被重新分配。通过CXL连接的内存可以组成一个共享的内存池,让系统能够灵活地管理内存资源,将未充分利用的内存重新分配给需要更多内存的任务,提高资源利用率。

明日之星:CXL ?

左图是对CXL技术实现的完整架构,核心是基于CXL协议的DRAM控制器(CXL Controller),通过CXL 交换机连接到Host 节点从而实现内存池化后的资源共享,DTL核心组件及工作原理,另文详解。

值得关注的是,Bill 并未一股脑肯定CXL未来统治地位,而是追忆起傲腾往事,并直接表露DAX(Direct Access)是否因为Optane技术的消亡而停滞不前的顾虑。

或许市场就是如此残酷,Intel这次押宝CXL在逻辑芯片市场再创辉煌了。

随着CXL作为扩展PCIe的统一接口,加入数据存储大家庭,热数据场景除了直接访问(DAS)的DRAM和”不怎么争气“的NUMA[2] ,基于CXL扩展的DRAM内存池将作为最大活跃数据缓存池,从而为企业市场的AI/ML及自动驾驶的IT可行性奠定基础。

图中说明了三种CXL访存方式:

  1. 1. CXL Memory 直接通过PCIe口连接到母版,此法效率一等,称之为 DRAM CXL direct;
  2. 2. CXL Memory 通过一层 CXL交换机连接到PCIe 口,此法效率二等,称之为 DRAM CXL 1 hop;
  3. 3. 诸如此类,经过2次CXL交换机连接的,效率三等,DRAM CXL 2 hops,但容量却可以做到最大。

来畅想下CXL 实现后的内存访问方式,CXL内存模块可以有三种分配方式:

  • • 可以专属于一个处理器;
  • • 可以分块给不同的处理器使用;
  • • 指定Moudle可被多个处理器同时共享(有点VMware中VMFS的感觉)。

存在的问题是:当同一内存区域被多个处理器共享写入时,缓存一致性的反向失效是如何工作的?

小结

DRAM容量局限与3DS技术难题:长期对DIMM带宽的追求忽视了结构优化,3DS堆叠工艺虽提升容量,但面临热管理、低良率及技术成熟度挑战,导致实际应用受限于DDP(双芯片封装)。

CXL内存池化革新:CXL技术克服传统DIMM插槽数量限制,允许内存资源的灵活扩展与池化,尤其在AI/ML和自动驾驶领域,通过智能管理未使用内存,显著增强资源利用效率。

CXL架构的内存访问模式:CXL支持内存模块的专属、分块或共享分配,但多处理器共享写入引发缓存一致性问题,其反向失效机制的具体实现成为行业关注焦点。

引用链接

[1] 4D-NAND概念: https://www.dramx.com/News/Memory/20240808-36833.html [2] ”不怎么争气“的NUMA: https://frankdenneman.nl/2022/09/21/sub-numa-clustering/

---【本文完】---

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-08-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • DRAM 容量焦虑和现实
  • 明日之星:CXL ?
  • 小结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档