首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >突破内存墙:CXL技术如何重塑AI推理架构?

突破内存墙:CXL技术如何重塑AI推理架构?

作者头像
数据存储前沿技术
发布2026-05-21 14:21:06
发布2026-05-21 14:21:06
1110
举报

阅读收获

  • 技术架构演进: 理解 AI 推理范式从“计算中心”向“内存中心”的转变,掌握 CXL 2.0/3.2 如何通过内存池化与异构配置,解决大规模模型推理中的 KV 缓存与吞吐瓶颈。
  • 性能优化路径: 明确 CXL 内存级访问与传统 NVMe 缓存方案的本质差异,认识到低延迟内存访问在提升 GPU 利用率与降低系统计算冗余方面的决定性作用。
  • 行业落地视角: 洞察从 AIC 扩展卡到 JBOM 内存机柜的演进逻辑,评估不同物理形态在企业级数据中心部署中的灵活性与资源调度潜力。

全文概览

随着大模型参数规模的指数级增长,AI 推理任务正面临严峻的“内存墙”挑战。KV 缓存的内存占用与日俱增,而传统服务器架构在内存容量与带宽上的物理限制,导致 GPU 利用率长期处于低位。当计算能力不再是唯一瓶颈,存储层级间的性能鸿沟如何填补?

CXL(Compute Express Link)技术的出现,为打破这一僵局提供了新路径。从 AIC 扩展卡到内存池化机柜,CXL 正在将内存从“固定资产”转变为“可调度资源”。然而,在追求极致性能的同时,企业级落地仍面临诸多现实拷问:在传统计算场景中,引入 CXL 内存机箱的硬件投入、软件适配与运维复杂度,是否真的能带来预期的经济效益?这种架构演进是 AI 时代的必然选择,还是特定负载下的权宜之计?

👉 划线高亮 观点批注


AI 推理面临的三个核心技术挑战:

  • KV 缓存成为内存饥渴型负载: 随着模型上下文增长,KV 缓存的内存占用极高(约 1MB/token),且其容量需求高度敏感于数值精度的选择。这要求底层存储架构必须具备极高的带宽来支持高效的缓存获取(Fetching)。
  • 内存墙与物理扩展瓶颈: 传统的服务器架构(Scale-up)在 CPU 内存和 GPU 显存上都存在明确的“天花板”。即便不断堆叠内存模块,受限于单节点物理架构,仍无法满足大规模模型推理对统一大容量内存空间的需求。
  • 存储层级间的性能鸿沟: 将推理数据或结果存放在 CPU 存储侧虽然能缓解容量压力,但由于 CPU 与 GPU 之间交互的高延迟,会显著降低整体推理性能,限制了单机多实例部署的效率。

AI推理范式要求集群设计要围绕内存容量和带宽来设计,才能充分发挥计算的冗余,这是经典计算架构没遇过的系统问题


图片展示了通过 CXL(Compute Express Link)技术突破 AI 推理性能瓶颈的具体方案对比。

  • CXL 解决“内存墙”导致的 AI 算力浪费: 在没有 CXL 的传统架构中,受限于单节点内存容量,即便拥有高性能 GPU(如 L40S),其平均利用率也仅能达到 35%。通过 CXL 增加内存容量和带宽,可以将 GPU 利用率有效提升至 75%,显著释放了计算资源的潜力。
  • 内存扩展大幅增强大模型吞吐能力: 内存容量直接决定了并发 LLM 实例的数量。通过 CXL 扩展至 56 个插槽,服务器能够承载的并发实例从 192 猛增至 528,这意味着在相同的硬件节点上可以实现约 2.75 倍的吞吐量增长。
  • 低延迟内存访问优于 NVMe 缓存方案: 该对比有力证明了 CXL 提供的内存级访问速度远超 NVMe 缓存。CXL 方案将处理延迟降低了 67%,这对于对延迟极其敏感的实时 AI 推理业务具有决定性意义。

CXL 内存扩展在CPU计算场景的价值,同样也是提高CPU的工况负载,我觉得这里还是要算一笔经济账的,在传统计算场景扩展 CXL 内存机箱,除了硬件投入,还有软件和兼容适配的工作,叠加后的成本是否真的更经济,还是后话


图片通过多维度的数据图表,量化展示了 CXL 内存(CXL Memory)相对于传统 NVMe 缓存方案在 AI 负载下的性能增益。

  • 突破存储介质导致的吞吐量瓶颈: 在处理大规模 AI 推理任务时,传统的 NVMe 缓存方案会因为介质读写特性的限制导致吞吐量骤降。相比之下,CXL 内存凭借其接近本地 DRAM 的访问特性,在缓存容量扩展的同时依然能保持高带宽吞吐。
  • 显著优化长序列/大规模查询的延迟: 随着 Batch Size 和查询数量的增加,系统压力增大。CXL 能够提供更短的访问路径和更快的响应时间,有效缓解了由“慢速存储介质”引起的延迟增加问题,从而提升了 AI 服务的实时性。
  • 降低 CPU 开销并提升整体 I/O 效率: NVMe 方案需要 CPU 参与大量的 I/O 管理工作,导致 CPU 成为系统瓶颈。通过 CXL 技术,实现了从扩展内存到 GPU 更为直接、高效的数据路径(Efficient I/O),在提升性能的同时显著降低了系统的计算冗余。

图片重点探讨了扩展卡(Add-in-cards, AIC)作为 CXL 生态系统核心构建模块的角色

  • 扩展卡是实现 CXL 内存平滑升级的关键媒介: 这种 AIC 形态允许数据中心在不更换主板架构的前提下,通过标准的 PCIe 插槽大幅增加单机内存容量(单卡可达 2TB)和带宽,是第一代 CXL 内存方案落地的主流物理形态。
  • 通过 Retimer 技术实现内存资源的池化与远端化: CXL 2.0 Retimer 的引入解决了信号完整性问题,使得内存不再局限于处理器附近的插槽,而是可以连接至独立的内存池化设备,从而实现内存资源的解耦与动态分配。
  • 架构正处于从多控制器向高集成度演进的过渡期: 目前的 8-DIMM 方案仍需采用双控制器架构来平衡性能与兼容性,但技术路径已明确将向单控制器集成方向优化,以追求更低的延迟和更高的效能比。

Type3 内存扩展卡,面向企业级的灵活插拔组件,云厂商可能会优先选择 JBOM 内存机柜的方式来解耦池化,从而实现集中的内存分配、调度。


图片重点展示了基于 CXL 扩展卡(AIC)的服务器内存扩展架构及其在不同配置下的容量上限

  • CXL 实现服务器内存容量的指数级增长: 通过 CXL 2.0 扩展卡,单台 4U 服务器的内存容量上限从传统的 6TB(仅主板)飞跃至 22.5TB 以上。这种超大规模内存池化能力彻底解决了大型 AI 模型推理时的内存容量限制瓶颈。
  • 计算与存储资源的灵活异构配置: 架构支持 CXL AIC 与 GPU 的混合插拔。这意味着用户可以根据具体业务(如大模型 RAG 或高性能内存数据库)的负载特征,动态调整 GPU 算力和 CXL 扩展内存的比例,实现资源利用率的最大化。
  • 针对 AI 关键组件的底层优化: 该方案特别强调了对 KV-cacheRAG 的支持。在这些应用中,大容量且低延迟的 CXL 内存可以显著提升推理速度和上下文处理能力,使 GPU 服务器能够更高效地处理长文本和复杂任务。

  • HBM 进入池化共享时代: 传统的 HBM 通常被封装在 GPU 内部,无法共享。该架构通过高达 800GB/s 的光互联技术,实现了 HBM 级别内存的池化,让计算节点能按需获取极高带宽的内存资源,打破了 AI 计算中的“内存墙”限制。(HBM共享,NV通过片上NVlink可实现跨GPU HBM访问,但若想做到 HBM的跨机架池化访问,则对光网络提出更高带宽需求)
  • 多协议融合与异构支持: 该设备不仅支持标准的 CXL 协议(包括最新的 CXL 3.2),还兼容 UALink 等新兴高速链路。这种灵活性确保了通用 CPU 和高性能 XPU 可以在同一个内存池中协同工作,极大地优化了数据交换效率。
  • 软件定义的内存动态分配: 通过 Fabric 管理软件,系统实现了内存资源的细粒度管理。无论是 DDR5 还是 HBM3E,都可以根据实际负载进行动态扩展或回收。这种“内存即服务”的模式将大幅提升下一代 AI 基础设施的利用率和能效比。

延伸思考

这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~

  • 成本效益分析: 在非 AI 密集型业务中,CXL 内存扩展带来的性能增益是否足以覆盖其硬件采购、软件兼容性适配及系统运维的额外成本?
  • 架构演进路径: 随着 HBM 共享与光互联技术的发展,未来内存池化是会向“机架级”演进,还是会受限于延迟要求而长期停留在“单机/机柜级”?
  • 软件定义挑战: 实现“内存即服务”的核心难点在于硬件还是软件?在现有的操作系统与驱动生态下,实现细粒度的内存动态分配面临哪些技术壁垒?

原文标题:Accelerating AI with Real-World CXL Platforms

Notice:Human's prompt, Datasets by Gemini-3-Pro

#FMS25 #CXL内存扩展

---【本文完】---

丰子恺-护生画集- 方长不折 Color by GPT-image 2

👇阅读原文,有问题试试和历史文章对话(欢迎 点赞/收藏/转发)。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档