

关于Microchip
Microchip Technology Inc. 是一家总部位于美国亚利桑那州钱德勒的半导体公司,成立于1989年。该公司专注于设计、开发和制造微控制器、混合信号、模拟和闪存(Flash)IP解决方案。Microchip 的产品广泛应用于汽车、工业、消费电子、计算机和通信等多个行业。
Microchip Technology Inc. 的关键业务领域和产品:


俗话说:提出好的问题,往往事情就解决了一半。

典型CPU-DDR内存的访问方式,基于多通道的并行访问。
关于CPU访问内存的瓶颈,在ARM多核处理器场景,有个NUMA解决方案,其核心思想是:在CPU每个Die中封装相应Memory Die, 从而实现非一致性内存访问(即NUMA),部分缓解集中式内存访问带来的瓶颈点问题。
需要指出的是,在数据密集型、要求大内存带宽的场景,不论是NUMA还是CXL本质上都是围绕CPU展开的优化策略,不断提高可访问内存的带宽,来提高CPU的利用率(CPU对复杂指令的的计算上限很高)。
更优解可能是围绕数据本身的GPU(TPU)+DPU方案,在这个体系里,就内存带宽而言,较CPU方案内存带宽大幅提升。
围绕CPU:
围绕GPU/TPU:

基于CXL扩展内存池的设计,外挂一个高速串行访问的接口来访问共享内存(多个CPU,甚至是跨节点CPU )。

CXL是一个基于PCIe 5.0基础设施的新兴开放行业标准
• 用于主机处理器和加速器/内存设备/智能网卡之间的高带宽、低延迟互连
• 针对AI、机器学习、通信等高性能计算工作负载
• CXL 1.0 --> CXL 1.1 --> CXL 2.0 --> CXL 3.0
• 动态多协议功能,支持新模型
• CXL.io - 核心模块,基于PCIe的初始化、发现、寄存器访问、中断、虚拟化、DMA协议
• CXL.mem - 优化延迟的内存语义支持协议
• CXL.cache - 优化延迟的缓存语义支持协议• CXL运行在PCIe 5.0 PHY上,数据速率:32 GT/s
• 插拔式:可以插入PCIe或CXL卡
• PCIe或CXL链路在训练期间进行链路协商
基于DDR5的访问带宽能达到6400MT-8400MT/s
理论上来说CPU-DDR的访问速率比PCIe能力要强,但随着DDR封装技术成本越来越高,且云服务厂商热数据的访问需求变大,单纯依靠DRAM来支撑内存,已显然不是最佳方案。
因此从实际业务背景来看,作者在问题提出模块,并未没完全介绍清楚CXL背景,只介绍到DRAM内存限制,然而这不一定是DRAM的缺点,而是业务场景倒逼出更大容量的内存访问方法。
CXL是今天热议的,SCM领域的傲腾内存是之前的解决方案。
就DDR4(3200MT/s)和PCIe4.0(16通道,16GT/s) 来比较,前者比后者理论带宽要高60%左右。
下一代DDR5(6400-8800MT/s)与PCIe5.0(x16)比较理论带宽仍领先60-80%。

基于PCIe5.0(及后续)的CXL技术,本质上是长距离访问技术,相较DDR的CPU并行访问,PCIe基于串行访问,造成其相对高的访问延迟。
通过设计CXL访问堆栈(专用硬件+Cache组合),即CXL控制器,来降低访问延迟。
如何实现CXL控制器是核心技术,主动权在Intel手上。

CXL 联盟定义了3种CXL设备的概念设计,分别是:
从场景落地远-近程度,type3 Memory缓存池,是缓解当前CPU闲置率较高,加速AI 训练、推理的重点关注对象。

介绍了专用设备-内存缓存池的实现逻辑,这可能是最先能实现的。

下一代高性能计算服务器主板(母版)概念:

高性能计算场景扩展内存,2种嵌入方式

数据密集型场景的内存扩展,可能是计算型存储。
上述两种,大概率都是把CXL内存集成到SSD控制器中,不太可能是完全的CXL内存。

典型1U设备的内存扩展形态,基于E.1L EDSFF形态

CXL 内存控制器需满足以下条件:

• 计算快速链接™(CXL™)利用现有的PCI Express®(PCIe®)电气结构来扩展高性能计算应用(如人工智能(AI)和机器学习(ML))中的内存资源。
• 使用CXL,可以通过使用CXL内存控制器将额外的内存设备(如DDR DRAM、HBM或持久性内存)连接到CPU来实现内存扩展。CXL内存控制器允许系统访问额外的内存,就像它是CPU的本地内存池的一部分一样,从而提高内存容量和带宽。
---【本文完】---
[1] SK海力士最大能做到 256 GB: https://www.dramx.com/News/Memory/20240723-36726.html