考虑到以上因素,目前3DS生产工艺,停留在2层堆叠,即DDP(Dual Die Package ),先进厂商提出4D-NAND概念[1]。
坐以待毙是下策
内存池化早在 ARM 多核领域就有过考虑,最早是高频交易(如数据库、电信通话等)低时延场景,通过共享一台服务器内存的方式来优化虚拟机性能。
HyperTransport和Quick Path互连等总线已经存在了几十年,
NUMA架构创建了一个资源层次结构 :
业界已经出现根据访问延迟调整数据位置的智能软件。
现实中NUMA似乎是多核场景(ARM)策略,在Intel主导的服务器市场,并没有多少实际投入和实践。
DRAM的”困境“
CXL
左图是对CXL技术实现的完整架构,核心是基于CXL协议的DRAM控制器(CXL Controller),通过CXL 交换机连接到Host 节点从而实现内存池化后的资源共享,DTL核心组件及工作原理,另文详解。
值得关注的是,Bill 并未一股脑肯定CXL未来统治地位,而是追忆起傲腾往事,并直接表露DAX(Direct Access)是否因为Optane技术的消亡而停滞不前的顾虑。
或许市场就是如此残酷,Intel这次押宝CXL在逻辑芯片市场再创辉煌了。
随着CXL作为扩展PCIe的统一接口,加入数据存储大家庭,热数据场景除了直接访问(DAS)的DRAM和”不怎么争气“的NUMA[2] ,基于CXL扩展的DRAM内存池将作为最大活跃数据缓存池,从而为企业市场的AI/ML及自动驾驶的IT可行性奠定基础。
图中说明了三种CXL访存方式:
来畅想下CXL 实现后的内存访问方式,CXL内存模块可以有三种分配方式:
存在的问题是:当同一内存区域被多个处理器共享写入时,缓存一致性的反向失效是如何工作的?
DRAM容量局限与3DS技术难题:长期对DIMM带宽的追求忽视了结构优化,3DS堆叠工艺虽提升容量,但面临热管理、低良率及技术成熟度挑战,导致实际应用受限于DDP(双芯片封装)。
CXL内存池化革新:CXL技术克服传统DIMM插槽数量限制,允许内存资源的灵活扩展与池化,尤其在AI/ML和自动驾驶领域,通过智能管理未使用内存,显著增强资源利用效率。
CXL架构的内存访问模式:CXL支持内存模块的专属、分块或共享分配,但多处理器共享写入引发缓存一致性问题,其反向失效机制的具体实现成为行业关注焦点。
[1]
4D-NAND概念: https://www.dramx.com/News/Memory/20240808-36833.html
[2]
”不怎么争气“的NUMA: https://frankdenneman.nl/2022/09/21/sub-numa-clustering/
---【本文完】---