首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Meta自研CXL芯片:可复用“退役”DDR4,AI服务器成本降25%!

Meta自研CXL芯片:可复用“退役”DDR4,AI服务器成本降25%!

作者头像
芯智讯
发布2026-07-03 16:58:08
发布2026-07-03 16:58:08
570
举报

近日,Meta公开了一篇技术论文,揭秘了其自研的一颗名为Vistara的CXL ASIC,通过将退役服务器上的DDR4内存重新利用到最新的支持DDR5内存的AI服务器中,不仅延长了内存寿命,还使部分AI推理业务所需服务器数量最高减少25%,这也意味着所需的硬件成本最高可降低25%。

这一方案不仅体现出Meta对于CXL(Compute Express Link)生态的深度布局,也折射出AI时代数据中心基础设施正在从“算力竞争”逐渐走向“系统架构竞争”。

AI服务器升级,DDR4却成了"鸡肋"

近年来,AI服务器快速从DDR4内存平台升级到DDR5内存平台。例如基于英特尔Xeon 6、AMD Turin以及最新AI GPU平台的新一代服务器,都已经全面采用了DDR5内存。而大量上一代服务器仍然配备的DDR4内存。

这里存在一个关键问题:服务器通常5~7年就会退役,但服务器级的DRAM芯片的物理寿命却可达到10~14年。这意味着,大量性能依然良好的DDR4内存,会随着服务器退役而被闲置甚至报废。

Meta在论文中指出,其在全球拥有数百万台服务器,其中约40%的服务器由于内存容量限制,无法继续承载新的AI工作负载;与此同时,又有海量DDR4内存处于闲置状态。

但是如果将旧的DDR4内存直接用于新服务器,会因带宽低、延迟高而拖累性能。特别是在服务器内存芯片紧缺、价格飙涨的背景下,这对于一家每年资本支出高达数百亿美元的互联网公司而言,无疑是巨大的资源浪费。

自研Vistara ASIC,让DDR4重新“上岗”

为了解决这个问题,Meta计划利用CXL技术将退役服务器中的DDR4 DIMM挂载到新服务器作为扩展内存,以实现近乎零成本的容量扩展(通过复用)、性能提升(更大内存)、降低碳足迹(延长硬件寿命),提升运营效率。

但是,Meta并没有采用商业化CXL方案,因为在它看来,现有的商业化CXL方案存在三大问题:

1、捆绑了DRAM与控制器,无法复用现有DDR4 DIMM;

2、不支持DDR4,无法利用退役服务器的大量DDR4资产;

3、功耗高、成本高,不适合超大规模部署。

因此,Meta选择自己设计了一颗专用的CXL内存扩展ASIC——Vistara,专为复用DDR4 DIMM而设计。

根据论文介绍,Vistara的核心作用是:通过符合CXL 2.0/1.1标准的PCIe Gen5 x16接口,把DDR4内存转换为CXL内存资源,供给最新DDR5服务器直接调用。

Vistara ASIC主要特点包括:

兼容CXL 2.0/1.1协议;

支持PCIe Gen5 x16;

集成两个72-bit DDR4内存通道;

支持最高DDR4-3200;

单颗ASIC最高可连接256GB DDR4(采用64GB DIMM);

支持RS(36,32),2-symbol correction,x4 chip-kill内存纠错;

延迟约等于50ns;

内置三颗RISC-V处理器负责安全、控制、引导启动;

接口支持CCI、SMBus、PCIe固件更新;

单颗ASIC功耗约9瓦。

Vistara ASIC的核心功能可以概括为:通过PCIe Gen5 x16接口和CXL 2.0协议,将旧的DDR4内存转换为新服务器可直接调用的共享内存池。每颗Vistara芯片支持两个DDR4通道,最高可挂载256GB内存,功耗仅约9W。

简单来说,Vistara实际上充当了DDR4与当前基于DDR5的AI服务器之间的一座“桥梁”,让原本只能用于老服务器的DDR4内存,重新成为AI服务器可访问的共享内存资源。

不只是扩容,更是建立共享内存池

相比传统服务器“每台机器独占内存”的架构,Meta的CXL ASIC方案更进一步构建了基于CXL的共享内存池(Memory Pool)。

论文显示,一台部署两颗Vistara芯片的MemServer平台中,可将768GB DDR5本地内存与256GB DDR4扩展内存通过CXL连接整合,实现总计1TB内存容量,而CXL扩展部分的总功耗仅约50W。

元

在性能方面,Vistara的CXL内存峰值带宽约48GB/s,空闲延迟约250ns,虽然远低于本地DDR5(614GB/s,130ns),但论文指出,在实际生产环境中,CXL带宽利用率通常低于10%——因为软件栈只将“冷数据”放在CXL内存上,绝大多数热点访问仍然命中本地DRAM,因此带宽和延迟差距对实际性能影响微乎其微。

Meta指出,这种架构最大的优势在于:不同AI任务可以按需动态共享内存,而不是提前为每台服务器预留大量冗余容量。对于大语言模型推理而言,许多请求并不会长期占满全部内存,动态共享可以显著提升整体利用率。

透明分层,应用无感

自研的Vistara芯片只是硬件基础,Meta还基于Linux内核的TPP(透明页面放置) 和 TMO(透明内存卸载) 机制,构建了一套自动化的内存分层系统。

系统可以实时追踪每个内存页面的访问频率,热页(Hot Page,被CPU频繁访问的内存页面)自动保留在本地DDR5,冷页(Cold Page,被CPU很少或极少访问的内存页面)则静默迁移到CXL上的DDR4——整个过程对上层应用完全透明,无需修改任何代码。

元

论文特别强调,此前学术界担忧TPP机制会带来较大的CPU开销,但Meta在生产环境中的实测显示,TPP的CPU开销不到0.5%,远低于预期。Vistara的尾延迟表现也相当稳定,并未出现此前FPGA测试中报告的不稳定现象。

对于延迟敏感型工作负载,Meta还提供了基于cgroup的灵活“退出机制”,允许特定任务禁用CXL内存,确保关键业务不受影响。

AI推理服务器最高可减少25%

论文显示,Vistara是Meta首款软硬件协同设计的CXL内存扩展平台,已在百万级服务器规模的生产环境中部署,覆盖缓存、数据仓库、ML推理、开发基础设施等多样化工作负载,并带来了颇为亮眼的提升:

1. 缓存服务

CacheA服务的缓存容量从680GB扩至890GB,可持续QPS提升33%,缓存对象的保留时间从1分钟延长至5-10分钟。CacheB服务的平均查询延迟降低了29%,2.3%的缓存命中从闪存转移到了内存,有效延长了SSD寿命。

2. 数据仓库(Spark等)

Spark执行器密度提升33%,OOM(内存溢出)事件减少33%。Cosco分布式Shuffle服务的计算容量降低30%,MIPS反而提升11%。

3. 开发基础设施(DevInfra)

每台物理服务器可运行的开发者虚拟机数量增加33%,整体服务器需求减少15%,同等开发效率下显著降低了硬件采购成本。

4. ML参数服务器

在5.1TB生产级推荐模型的推理服务中,服务器需求减少25%,吞吐量提升4%。当模型规模扩展到20TB时,吞吐量提升达4-12%,服务器需求持续减少20-25%。

数据中心竞争进入“系统架构时代”

Vistara方案的核心价值,并不仅仅是省了几颗内存条的钱。它在更深层次上印证了两个趋势:

第一,CXL技术的规模化验证。 CXL标准问世已有六年,业界一直缺乏大规模生产部署的实证数据。Meta用百万级服务器的真实场景证明,CXL内存分层在工程上是可行的、可靠的,且收益显著。学术界关于CXL尾延迟和TPP开销的担忧,被生产数据一一反驳。

第二,超大规模云厂商正在成为芯片设计的主角。 Vistara并非一颗通用芯片,而是围绕Meta特定基础设施需求——最大化复用DDR4资产,来量身定制的产物。这种“工作负载定义芯片”的模式,正在成为微软、谷歌、亚马逊等云巨头的共同选择。

从更宏观的视角看,Vistara折射出AI时代数据中心设计理念的根本转变:资源正在从“整机绑定”走向“解耦池化”。 CPU、GPU、内存、存储不再需要同步淘汰、同步升级,而是通过CXL等开放互联技术,形成可按需调度的独立资源池。这不仅延长了硬件生命周期,更从根本上提升了基础设施的投资回报率。

未来的数据中心竞争,已不仅仅是算力峰值性能的比拼,更是系统架构、互联技术与资源管理能力的综合较量。Meta的Vistara,为这场竞赛写下了一个务实而有力的注脚。

编辑:芯智讯-浪客剑

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-07-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 芯智讯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档