阅读收获
异构内存调度范式: 掌握将KV Cache、实时Token等高频热数据驻留DDR,而将模型权重、冷嵌入数据卸载至CXL的冷热分层部署策略。性能优化量化路径: 理解通过静态分析与嵌套二分查找算法,将高并发负载与硬件带宽饱和点精准匹配,实现推理吞吐量3倍提升的工程逻辑。企业级部署参考: 明确CXL内存扩展器在解决高并发、长序列RAG场景下,如何以低硬件成本实现多实例并行推理的落地范式。全文概览
在大模型(LLM)与检索增强生成(RAG)技术爆发的当下,企业级应用正面临严峻的“内存墙”挑战。随着知识库规模从百万级跃升至数十亿级,向量数据库对内存容量与带宽的需求呈指数级增长,传统服务器架构往往因内存耗尽(OOM)而陷入性能瓶颈。
为什么在硬件堆叠之外,软件层面的冷热数据调度成为了决定性因素?当操作系统默认的内存管理机制无法感知数据属性时,我们该如何通过静态分析与负载分配,精准压榨异构内存(DDR+CXL)的硬件潜力?本文将深入剖析三星CMM-D技术方案,探讨如何通过软硬协同,在不重构系统架构的前提下,实现RAG推理性能的跨越式提升。
👉 划线高亮 观点批注
PPT展示了检索增强生成(Retrieval Augmented Generation, 简称 RAG)的技术架构与工作流程。整个流程被划分为三个核心阶段:检索(Retrieval)、增强(Augmentation)和生成(Generation)。
RAG的核心价值在于通过外挂知识库缓解大模型的“幻觉”问题: 流程图清晰地展示了原始文档(PDF等)是如何通过文档预处理、向量化(Embedding)并存储在向量数据库(Vector DB)中,从而为LLM提供实时、准确的专业知识支撑。
向量数据库(Vector DB)与嵌入模型(Embedding Model)是RAG架构的技术枢纽: 在检索阶段,嵌入模型负责将异构数据(文档和用户问题)统一转化为向量,而向量数据库则承担了高维向量数据的存储与相似度检索职责,直接决定了后续生成内容的准确性。
端到端的闭环交互: 该架构展示了一个完整的业务闭环——从用户在Chat Bot发起提问开始,经历数据检索与提示词增强,最终由LLM生成定制化结果并返回给用户,体现了当前企业级AI应用落地的主流技术路径。
主题为“RAG加速中的挑战”(Challenges in RAG Acceleration),主要从内存、维度和系统架构等维度分析了检索增强生成(RAG)在实际落地和加速上面临的技术瓶颈
内存膨胀是RAG加速的首要技术瓶颈: 随着知识库扩展到数百万至数十亿量级,加上向量本身高达768至2048维的高维特性,向量数据库对服务器主内存(RAM/VRAM)的消耗呈指数级增长,内存容量和带宽成为了最核心的系统瓶颈。
冷热数据分层与卸载(Offloading)是关键解法: 针对内存不足的挑战,PPT指明了通过数据卸载(Offloading)进行优化的技术路线。即将频繁访问的“热数据”保留在高速主存,将不常访问的“冷数据”动态卸载到低成本的存储介质中,在保证“快速访问”的同时降低硬件成本。
RAG加速是一项多维度的系统工程: 右侧饼图表明,除了内存瓶颈外,工程人员还必须同时解决高维检索算法、实时索引更新、软硬件协同加速、以及在大模型流水线中的端到端延迟与准确性平衡(Trade-Off)等多重挑战。
“CXL内存扩展器”(CXL Memory Expander),重点介绍了基于CXL(Compute Express Link)技术的内存扩展硬件及其核心特性,并特别指出了该技术在RAG(检索增强生成)场景下的应用价值
CXL成为解决大模型“内存墙”的关键存储技术: 针对前一张PPT提到的RAG面临的“内存膨胀”瓶颈,三星在此给出了基于硬件的解决方案。CXL内存扩展器允许服务器通过PCIe/CXL物理接口插卡式地扩展主存,打破了传统处理器DDR通道的容量限制,且无需重构系统架构。
兼顾高带宽、低延迟与池化共享: CXL协议(特别是针对内存的CXL.mem协议)具备与主存接近的低延迟表现。同时,它支持“内存池化(Pooling)”,这意味着多台AI服务器可以共享同一个CXL内存池,大幅提高了向量数据库等高负载AI应用的数据吞吐效率与灵活性。
端到端加速RAG应用落地: PPT明确将CXL的价值锚定在RAG的两个核心痛点上:一是为向量数据库(Vector DB)提供海量的高速缓存空间以加速高维向量检索;二是为 大语言模型(LLM)运行提供充足的上下文与权重存放空间,从而实现“检索”与“生成”的双重性能飞跃。
PPT主题为“问题定义”(Problem Definition),重点探讨了在引入 CXL 后,传统操作系统的默认内存管理机制在处理大模型和 RAG(检索增强生成)负载时所暴露的核心痛点,并辅以性能对比图表
异构内存环境下的“盲目分配”成为新瓶颈: 虽然从右侧图表来看,直接引入 CXL(DDR + CXL)能够利用更大的硬件带宽和容量,分别为主流的大模型生成(Generation)和 RAG 带来 38% 和 16% 的吞吐量提升。但左侧清晰地指出,现有的操作系统默认内存管理(如页级交叉存取)是“数据盲视”的 。
冷热数据无法协同识别,导致 CXL 性能未完全释放: 由于传统的页级分配机制不会感知数据的“冷热”属性,导致本该放在低延迟原生 DDR 里的高频热数据可能被随机分配到了 CXL 扩展内存中,而本该卸载到 CXL 中的冷数据却占满了宝贵的原生 DDR。这种不合理的调度抑制了“DDR + CXL”组合拳的硬件潜力,这正是三星在此定义的核心工程问题,预示着后续需要引入更智能的冷热数据分层调度软件优化。
不论是直连(DAX)还是池化后的内存服务器,冷热数据分层是提高内存资源利用率的关键能力
利用静态分析实现最优数据与负载分配”(Proposed Solution: Optimal Data and Load Distribution using Static Profiling)。针对前一张PPT中提出的异构内存盲目分配问题,本张PPT给出了具体的软件层优化方案,包含双层分析(Profiling)和基于二分查找的优化算法
通过“软硬兼施”的静态分析攻克数据盲视问题: 该方案不再依赖操作系统的默认分配,而是通过“系统级+应用级”的双重分析,既掌握了当前 CPU/DDR/CXL 的底层硬件带宽利用率,又向下钻取到了大模型本身的“函数、权重、参数”层级,为冷热数据分类建立了精细的画像基准。
利用嵌套二分查找算法实现负载与硬件潜能的精准匹配: 算法的核心逻辑是通过双重嵌套的二分查找,在动态调整大模型推理的“批次大小(Batch size)”与“实例大小(Instance size)”的同时,不断去逼近并校验 CPU、DDR 和 CXL 三者的性能饱和点(Saturation)。
旨在压榨“DDR + CXL”异构系统的最大性能: 该算法通过精准控制应用层负载,能够将最频繁访问的参数和高并发负载精准卡在原生 DDR 的带宽上限内,同时将大体量、低频访问的权重和上下文动态平滑地导向 CXL 扩展内存,从而在软件层真正激活了 CXL 硬件的吞吐量潜力。
PPT展示了通过三星 CMM-D(CXL 内存模块-DRAM)硬件,结合上一张 PPT 提及的优化调度算法,在不同运行配置场景下大模型推理性能的对比测试结果
CXL 彻底根治了大模型推理的 OOM 绝症: 在基准测试中,纯 DDR 面对高并发/大批次(764 Batch Size)负载时直接因内存耗尽(OOM)而崩溃。CXL 的物理内存扩展能力直接填补了这一容量鸿沟,让原本无法运行的重载推理得以平稳落地。
软件层面的精细化调度是释放 CXL 性能的决定性因素: 从图表中可以清晰地看到三个阶段的性能阶梯。仅仅插上 CXL 卡(兼容模式)只能获得 38% 的提升;而当叠加上针对异构内存特征设计的“静态分析与负载分配优化算法”(Optimized 场景)后,性能直接飙升至 300% (3x) 。
“高并发、小核心、大批次”成为异构内存最优解: 在 Optimized 场景下,优化算法将硬件改造成“16个实例 × 6核心”的密集并行架构,并将批次从小幅度的6提升到24。这证明了通过软件将高频上下文与控制流卡在高速 DDR 内,将大体量权重分配在 CXL 内存中,可以完美实现高吞吐量的并发推理,为企业级 RAG 的边缘与私有化部署提供了极具性价比的参考范式。
展示了如何将 RAG(检索增强生成)应用中的关键数据资产与计算模型,在原生 DDR 与 CXL 扩展内存 之间进行最优的冷热分层布局
实现了数据与模型权重的软硬件精准解耦: 三星在此给出了异构内存下 RAG 的终极部署范式。将动态变化、高频读写、对延迟极度敏感的数据(如用户的 Input、实时生成的 Token 以及大模型推理不可或缺的 KV Cache )死死卡在原生 DDR 中;而将体量巨大、相对静态的模型参数(Embedding Model 和 LLM 权重 )移至 CXL 中,完美化解了容量与速度的矛盾。
涵盖了动态更新与静态检索两种工业级 RAG 场景: 左侧提及的“Batch-wise”与“Pre-defined”涵盖了现阶段企业 RAG 的两大主流诉求。无论是需要根据推理结果实时滚动更新索引的知识库,还是基于 FAISS 进行海量静态数据高并发批处理(Batch Query)的场景,该分层架构都能提供针对性的性能优化。
以最低的硬件成本实现了 RAG 的极致加速: 通过将“冷嵌入”与“庞大的大模型本体”卸载到 CXL,企业无需购买极其昂贵的超大容量多路服务器,只需在普通服务器上外插 CXL 内存卡,就能在保证核心数据(DDR 内)维持极低延迟的同时,吞吐量和扩展性获得成倍提升。这为高性价比、大规模落地 RAG 生产系统提供了清晰的技术路线图。
PPT主题为“使用 CMM-D (CXL) 优化 RAG 推理”(Optimizing RAG Inference using CMM-D (CXL))。它是对前面提出的一系列冷热分层存储和软件调度算法在端到端 RAG 完整流程下的最终性能量化验收
硬件平台升级印证了 CXL 在尖端服务器上的良好兼容性: 与此前单独测试 LLM 推理时使用的第四代至强(Sapphire Rapids)不同,本张 PPT 的完整 RAG 测试迁移到了拥有 144 核的英特尔第五代至强Granite Rapids 平台上,证明了三星 CMM-D (CXL) 方案在最新一代高性能服务器计算节点上的平稳适配。
在大模型与向量库高并发交织下,CXL 依然保持稳定的高加速比: RAG 推理的计算压力远比纯 LLM 推理复杂,它需要频繁在向量库(FAISS)检索与大模型文本生成 之间切换。实验数据表明,通过将大模型权重与冷数据卸载到 CXL,在 Batch wise 和 Predefined 两种高并发、长序列(Sequence Length = 128)的真实工业场景下,依然斩获了 61% 和 65% 的可观吞吐量性能增益 。
成功实现了“大序列、多实例”的 RAG 吞吐性能最优化: 观察参数表可知,在引入 CXL 后,系统不仅能吃下更大的 Batch size(从 32/36 提升至 54/48),还能挤出更多闲置 CPU 核心去创建更多的并行实例(从 9/6 个提升至 12/8 个)。这表明通过对异构内存的精细化冷热分层调度,硬件的吞吐效率被彻底激活,为企业在线高并发 RAG 服务提供了高性价比的软硬件一体化落地范式。
CXL 内存扩展有多种形态,扩展卡、专属服务器,不同场景的软硬件技术栈有显著区别,当前仍处于规模应用前夕,核心难点是应用层的商业模式还在探索,因此硬件层的技术范式处于众说纷纭阶段,了解应用场景的技术参数、能为后来的硬件选型提供参考。
延伸思考
这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~
技术边界: 在CXL内存池化普及后,操作系统内核是否需要从“通用内存管理”转向“应用感知型内存调度”?这将如何改变现有的存储软件栈?成本博弈: 相比于通过增加GPU显存或购买超大容量服务器,基于CXL的内存扩展方案在TCO(总拥有成本)上具备多大的长期竞争优势?行业演进: 如果CXL技术成为RAG推理的标准配置,未来向量数据库的索引结构设计是否会发生根本性变革,以适应这种非对称的内存访问延迟?原文标题:Optimizing RAG Inference efficiency using CXL Memory Expander
Notice :Human's prompt, Datasets by Gemini-3-Pro
#FMS25 #CXL内存扩展
---【本文完】---
丰子恺-护生画集- 重生
Color by GPT-image 2