
高速接口是指在计算机系统及外设互联中,具备高带宽、低延迟核心特性,能实现海量数据或高速信号高效传输的硬件连接规范与物理接口统称。
其核心目标是匹配高性能硬件的数据吞吐需求,打破性能瓶颈,支撑高并发、大流量、实时性要求高的应用场景。
具体多少速率才能被称之为高速接口呢?并没有这一门槛的官方定义。因为高速接口是一个相对且动态变化的概念。2010年的高速可能是5 Gbps的USB 3.0,而今天,讨论的焦点已经是64 GT/s的PCIe 6.0和1.6Tb/s以太网了。
二、单机内的高速接口
单机内高速接口用于连接CPU、内存、GPU、SSD等核心硬件,直接决定单机系统的运算效率与数据交互能力,是硬件协同的核心纽带。按连接对象可分为四类:
CPU 之间需要互联的核心目的是突破单颗 CPU 的算力、内存、扩展能力上限,支撑大规模、高并发的计算任务;而互联接口的设计则围绕低延迟、高带宽、缓存一致性三大核心目标,适配不同场景的性能与扩展性需求。
(1)Intel UPI(Ultra Path Interconnect)
UPI是Intel在2017年推出的替代QPI(QuickPath Interconnect)的一致性互联技术。
QPI 存在一些缺陷,比如:
①Home Agent资源预分配机制存在设计缺陷,会直接限制系统最大支持路数(路数就是服务器内CPU个数),无法满足数据中心对8路以上服务器的需求;
②QPI 的一致性协议存在协议复杂、广播开销大的问题;
③QPI仅有基础L0/L1/L2 功耗状态,空闲功耗高。
基于此,Intel发明了UPI,在QPI的基础上进行了选择性继承与系统性重构:
①完全保留了点对点设计,支持环形、交叉开关等复杂拓扑
②保持和QPI相同的物理信号定义,便于平台平滑迁移
③重构数据包格式,提升小数据包传输效率
④保留信用机制,优化信用分配算法,支持动态调整
⑤新增 L0p 低功耗状态,空闲功耗降低 70%
⑥将QPI的Caching Agent (CA) 与 Home Agent (HA) 分离设计改成Caching and Home Agent (CHA) ,大大增强了扩展性
⑦精简了一致性协议,提升了多路服务器场景下的一致性效率
2017年刚推出时,较之QPI的9.6 GT/s,UPI将速率提升到了10.4 GT/s,最新的增强2.0版本,已经升级到了24 GT/s。单链路带宽、最大路数、延时和功耗效率也大大提升了。

(2)AMD xGMI(External Global Memory Interconnect,外部全局内存互联)
xGMI是 AMD Infinity Fabric 协议栈在CPU 间与异构设备互联场景的物理层实现,专为多路服务器与 GPU 集群设计,核心提供低延迟、高带宽的点对点连接与缓存一致性保障。
第一代xGMI于2019 年随EPYC 7002 系列正式发布,解决了2路服务器CPU间的互联问题,填补了AMD在多路服务器市场的空白。
和Intel UPI支持2-8路扩展不同,xGMI专注双路优化,通过点对点直连架构实现极致性能。现在xGMI单通道可达32 GT/s的速率,两颗CPU可以通过多条xGMI链路同时相连,取得更巨大的聚合带宽。

(3)ARM CMN(Coherent Mesh Network片内一致性互联)、CCIX和CXL
ARM在2017年,使用过CCIX作为Neoverse N1/V1平台的双路/四路扩展的片间协议。
CCIX是16年由Arm、AMD、Xilinx、华为等公司联合创立,首次提出开放、通用、支持缓存一致性的CPU与加速器(如FPGA、AI加速器)互连标准,旨在打破专有方案的壁垒。但后来因为CXL协议更简洁、产业号召力更强、严谨速度更快,所以CCIX被打败了。

后面到了21年,ARM发布了CMN-700技术,这是 Arm 首款支持芯粒 (Chiplet) 与多插槽互联的 Mesh 网络技术,它兼容 CCIX/CXL 2.0协议,能实现芯粒间、芯片间缓存一致性互联。
下图是CMN-700的框图,其中的Chip-to-Chip Gateways芯片到芯片网关是多芯片互联的关键模块,能让CMN-700网络通过 CXL、CCIX或专有SMP协议 与其他芯片连接,构建更大型或异构的缓存一致系统。

(4)Huawei Hydra
Hydra 是华为海思自研的高速缓存一致性互联架构,专为鲲鹏处理器设计,用于实现多 CPU 间的互联,是鲲鹏服务器 2-4路扩展的核心技术基础。
Hydra底层复用了PCIe高速SerDes通道,上层协议是基于 MOESI 协议扩展的,华为自研 HCCS(Huawei Cache Coherency System),单通道速率可达30 GT/s。
为何华为没有选择CXL呢或者CCIX呢?因为鲲鹏服务器Taishan2280推出时,这两个协议还没有成熟。所以华为必须像Intel和AMD早期一样,开发一套自有的、紧耦合的专用互联协议,以满足双路/四路服务器的迫切需求。

(5)SiFive P870-D
SiFive P870-D是SiFive公司研发的RISC-V数据中心级高性能芯片。从下面两个材料来看,它应该是可以做到使用CHI C2C 扩展模式直接连接外部芯片,比如另一颗 P870-D 处理器,实现多芯片间的缓存一致性通信的。


如果把计算机整体的算力比喻成一台水轮机的话,内存接口可以看做是这台机器的供水管道。二者的匹配关系决定整体性能。
CPU与内存的接口按照紧耦合程度和物理距离分为两大层级:核心直连层与 扩展互联层。
核心直连层指的是CPU 内存控制器到本地物理内存的标准物理接口,包括DDR(通用计算)、HBM(高端算力)等;
而扩展互联层则是为了解决数据中心本地内存容量带宽不足的问题,实现内存池化、弹性扩展的需求的技术,主要指的是CXL.mem。
(1)DDR(Double Data Rate SDRAM,双倍数据率同步动态随机存取内存)
DDR由JEDEC固态技术协会主导制定的统一标准。从初代DDR诞生至今,历经20余年,始终占据通用计算内存的绝对主流,是x86/Arm/RISC-V全架构的标配。
DDR系列标准演进如下图所示,迭代遵循稳定节奏,每约5年更新一代,且新一代产品的最大数据传输速率通常翻倍。最新一代DDR6正在开发中,预计近期将会发布。

DDR6 的最大数据传输速率预计将较DDR5翻倍,标准基准速度≥12800 MT/s,超频模块速度:≥15000-17000 MT/s,这一速度可使单条 DIMM 的内存带宽突破 134GB/s,为高数据密集型应用提供有力支撑。

(2)HBM(High Bandwidth Memory,高带宽内存)
HBM也由JEDEC固态技术协会主导制定的统一标准。
HBM 是专为超高带宽需求场景设计的3D堆叠内存技术,通过 TSV(硅通孔)和微凸点技术将 8-16 层DRAM芯片垂直集成,配合CoWoS等先进封装与处理器紧密互联,带宽可轻松达到TB/s 级别。
如下图所示,HBM和DDR不是替代关系,而是场景互补关系。DDR面向通用计算场景,HBM则面向的是AI 训练、超算、高端GPU等高端算力场景。

HBM系列标准演进如下图所示,目前最新的是HBM4。HBM5在开发中,JEDEC预计2027 年发布,目标带宽达4TB/s,采用32层堆叠,工作电压降至 0.8V,能效比再提升40%。

(3)CXL.mem(计算快速链路内存):
AI/ML、内存数据库、高分辨率图像处理等现代应用,对内存容量的需求呈指数级增长。
传统DRAM接口采用并行传输架构,若要为 CPU 连接更多内存,需要大量引脚支持。
所以CPU 通常仅配备 4-6 个专用内存控制器,这限制了可连接的RDIMM数量,进而影响了单处理器的内存容量上限。
CXL 为CPU连接高速、低延迟内存提供了全新的接口方案。原本用于连接存储或其他外设的PCIe 接口,现在可以接入 CXL Type3 内存设备。所以CXL 技术让PCIe接口具备了支持DRAM 设备的能力,从而大幅提升内存扩展潜力。


CXL基于 PCIe串行接口技术,可实现更高的单引脚比特传输速率(例如 PCIe 4.0 单通道速率达 16 Gbps,而 DDR4-3200 仅为 3.2 Gbps)和更低的单位比特传输能耗(PCIe 4.0 为 6 皮焦/比特,DDR4 为22 皮焦/比特),但代价是链路延迟更高。
当应用程序内存不足时,如果没有CXL内存扩展技术,那么数据会被写入存储设备,而存储设备的访问延迟比CXL内存高出数个数量级。所以CXL技术是在内存层次结构中增加了一个高容量、延迟可控的新层级,可带来整体性能上的跃升。


另外,通过CXL交换机,池化内存设备,可以创建一个共享的内存资源池。服务器可以像从网络存储按需分配存储一样,从共享内存池中动态分配和释放内存。这极大提升了资源利用率,降低了总体拥有成本 。

CPU与GPU、NVMe SSD、高速网卡、DPU等外设之间的高速接口的核心代表就是PCIe与CXL了。
PCIe 是面向全场景的通用高速 IO 互联标准,核心是解决所有外设、加速器的基础连接问题;CXL在兼容 PCIe 所有基础功能的前提下,叠加了硬件级缓存一致性、内存语义访问、内存池化、多主机共享等高端特性,解决 PCIe在AI/HPC 场景的痛点。
(1)PCIe(Peripheral Component Interconnect Express)
为了解决传统并行总线(PCI/AGP/ISA)线的带宽瓶颈、扩展性差等痛点,2001年,Intel 联合 IBM、戴尔等厂商启动PCIe的前身3GIO项目,2002年正式发布1.0规范,首次采用串行点对点差分传输,解决了并行总线的核心痛点。
二十多年来,PCIe规范一直保持着约三年迭代一次的节奏,与处理器、显卡、存储的产品周期对齐,以维持算力增长与数据供给之间平衡。2025年PCIe已经迭代到了7.0版本,2028年将发布8.0版本。

下图是PCIe各版本带宽参数对照表,大家可以参考它看下不同PCIe 速率与不同链路宽度(x1至x16)组合下的双向总带宽。

PCIe实际的接口长什么样呢?最常见的就是这种长方形的插槽配以金手指卡了。
根据实际应用场景不同,还有可能采用方型等其它封装方法。


另外还可以通过PCIe Switch卡扩展 PCIe 端口数量、实现多设备的高速互联、适配不同形态的 PCIe 设备、支持多主机共享设备(高端型号),支持多种应用场景。

(2)CXL(Compute Express Link):
CXL 是一种开放的行业标准,适用于CPU与设备之间以及 CPU 与内存之间的高速、大容量且高效的互联。
该标准的首个版本于2019 年发布,目前已更新至第四代。中途还收编了Gen-Z和OpenCAPI。


CXL有三种设备类型:
Type 1:无本地内存的加速器(如 SmartNIC),依赖 CPU 内存,用 CXL.io+CXL.cache;
Type 2:带本地内存的加速器(如 GPU/ASIC/FPGA),用 CXL.io+CXL.cache+CXL.mem;
Type 3:纯内存扩展设备(如 CXL 内存卡/模组),用 CXL.io+CXL.mem,这类设备是目前商用最成熟的品类。(这块的技术可以参考上文关于CPU和内存之间的接口相关描述)

而对于Type1和Type2,和PCIe设备相比,好处在哪里呢?
①纯PCIe设备是传统的孤岛模型
CPU通过PCIe.io协议向设备发送读写命令。设备通过DMA在主机内存和设备的本地内存之间搬运数据块。
这时CPU和设备之间没有共享的内存视图,任何数据共享都必须经过显式的拷贝操作,这会带来额外的延迟、带宽消耗;
同时软件需要同步以确保数据一致性,这也将带来额外的复杂性。
② CXL Type 1 设备:CPU 的延伸计算单元
它在PCIe的基础上,增加了CXL.cache协议。
设备内部拥有硬件缓存,可以像CPU缓存一样,直接缓存和操作主机内存中的数据。设备不再需要DMA将数据拉到设备内存中进行处理,而是可以直接计算主机内存中的数据。
这就消除了数据拷贝,大幅降低了延迟。
这类设备适用于计算密集型但数据移动需求简单的加速器。
比如专做加密的加速卡,它可以直接读取主机内存中的明文,加密后直接写回主机内存,全程无需在卡上存储完整数据副本。
③ CXL Type 2 设备:平等的系统伙伴
它在Type 1的基础上,增加了CXL.mem协议。
设备不仅拥有缓存,还拥有自己的物理内存(如GDDR、HBM)。通过CXL.mem,主机CPU可以将设备内存映射到自己的地址空间,并直接加载/存储访问。同时,设备也能通过CXL.cache缓存主机内存。
这就实现了真正的双向、硬件维护的内存一致性。主机和设备可以像在一个统一的系统中一样,共同操作同一份数据。
比如:GPU(图形处理器):CPU可以直接将GPU显存当作一个很慢的NUMA节点来访问,GPU也可以高效缓存CPU内存。

不过这两类设备,商业上还不成熟,我们可以参考下CXL网站上的integrators-list,就可以感受到了。下图中Type1和Type2加起来只有Type3的1/4。

(1)NVIDIA NVLink & NVSwitch
NVIDIA NVLink & NVSwitch是其生态内最高性能的GPU间互联技术,是其AI战略的基石。
NVLink 是一种点对点高速串行链路,从物理层就针对 GPU-GPU和GPU-CPU通信进行了优化设计,其单链路带宽远高于同期PCIe。
早期GPU间通过有限的NVLink链路直连,形成如“超立方体”的拓扑。这优化了邻近GPU的通信,但距离远的GPU仍需中转。

后来,NVDIA又发明了NVSwitch技术。它像一个专为NVLink流量设计的超级交通枢纽,让一个机箱内所有GPU实现全连接,任何两块GPU都能以满速直接通信,消除了网络阻塞,是构建单机超级算力的关键。

还可以通过NVLink和NVSwitch技术实现节点间的互联,形成无 IB 交换机 的全 NVLink 集群,进一步消除通信瓶颈,提升AI集群性能。

NVLink和NVSwitch的最新规格可参照下面两张图:


(2)AMD Infinity Fabric & UALink
Infinity Fabric是AMD于2016年随Zen架构推出的统一系统级互联架构,核心定位是替代传统分散的互联方案(如 CPU QPI、GPU显存总线),通过“双平面协议+灵活物理层” 设计,实现 CPU、GPU、内存、I/O 芯片的低延迟、高带宽协同,是AMD 锐龙、霄龙、Instinct AI加速器的核心互联支柱。
双平面指的是:
①数据平面(SDF,Scalable Data Fabric):核心数据传输通道,封装 MOESI 优化版缓存一致性协议,支持CPU核心间、CPU与GPU、CPU与内存的高速数据交互,单链路带宽随代际持续提升;
②控制平面(SCF,Scalable Control Fabric):负责系统控制信号传输,如热管理、电源调节、安全认证、硬件故障检测,确保多组件协同运行稳定性。
灵活物理层指的是根据互联距离与场景,物理层可选择片上SerDes、xGMI等。
下图展示的就是通过AMD Infinity Fabric 实现 8 块 MI300X 的直接全连接(图中红色网状链路)的场景。
图中每块MI300X配备了7条双向链路,单链路带宽达128GB/s(双向),保障任意两块 GPU 间的无阻塞通信。

2024 年 10 月,AMD和Intel、Google、微软等 9 家企业发起成立 UALink 联盟(现在成员数已经增加到了60多个,阿里云、苹果等都在内),该组织于2025年4 月正式对外发布UALink 1.0 规范。
UALINK的定位是开放行业标准互联技术,专为 AI 场景设计,核心解决大型模型训练 / 推理对多加速器协同的需求,实现模型在海量加速器间的高效分布,支持 Pod 内 10-1000 个加速器的规模化扩展,及跨 Pod 10000 + 个加速器的集群部署。


(3)华为的UB-Mesh
UB-Mesh是华为推出的面向大规模LLM 训练的新型数据中心网络架构,核心采用层级化本地化 nD-FullMesh 拓扑,通过统一总线(UB)技术互联定制化 NPU、CPU、低 / 高基数交换机(LRS/HRS)等硬件,结合全路径路由(APR)、拓扑感知并行优化等创新机制,及 “64+1” 高可用设计,在大幅降低硬件成本(减少 98% 高基数交换机、93% 光模块)的同时,实现2.04 倍成本效率提升、7.2% 更高可用性和 95%+ 的 LLM 训练线性扩展,仅产生不超过 7% 的性能损耗,完美适配 LLM 训练中 Tensor Parallelism(TP)、Sequence Parallelism(SP)主导的强数据局部性流量特征。
感觉这个和AMD的Infinity Fabric & UALink倒是异曲同工的样子。
想了解更多的话可以参考UB-Mesh的论文:https://arxiv.org/abs/2503.20377。


互联用高速接口用于跨节点(如服务器集群)的高速数据交互,主要有标准以太、IB、RoCE等。
1.标准以太网(TCP/IP)
标准以太网是通用的、依靠软件协议栈的网络通信基石。
它的成本低、兼容性好,是所有网络应用的基础。
但数据包经由操作系统的内核网络栈处理,涉及多次内存拷贝和CPU中断,CPU开销大。
所以它的延迟高(通常在数十微秒级)、CPU占用率高,不适合需要高频、小数据包通信的高性能计算场景。
虽然可通过 TCP/IP Offload 技术,将部分协议处理卸载到网卡,但核心路径仍需CPU参与。

2.InfiniBand(IB)和RoCE(RDMA over Converged Ethernet)
IB是为高性能计算(HPC)和低延迟而生的专用网络技术,而RoCE则是将以太网的通用性和IB的高性能结合的技术方案。想要知道详细内容,可以参考本公众号的前期文章《RDMA技术解析》

纵观高速接口的技术演进,一条清晰的脉络浮现:它们正从实现基础“连接” 的管道,演变为驱动系统深度 “融合” 的神经与血脉。
在单机内,我们看到 CXL 正以内存语义和缓存一致性为基石,模糊CPU、内存与加速器的界限,将离散的硬件整合为统一的“计算体”。与此同时,NVLink 和 Infinity Fabric 等专用接口,则代表了对极致性能的另一种回答:通过封闭生态的垂直整合,将多芯片熔炼为“超级芯片”。
在跨节点领域,InfiniBand 与 RoCE 的竞争,实则是“专用极致”与“开放通用”两种哲学在集群尺度上的延伸。而未来节点间的隔阂也将会被进一步打破,向全网级内存池化与可组合性迈进。
这纷繁的技术路线背后,是一个统一的逻辑:计算竞争力,不仅取决于单个芯片的峰值算力,而更依赖于将海量芯片、内存和异构单元高效组织起来的“连接智慧”。高速接口,正是这种“连接智慧”的具象化。它从幕后走到台前,从一个性能参数,升维为定义系统架构、乃至于划分产业生态的核心战略要素。
我们正步入一个由软件定义硬件、由互联定义性能的时代。高速接口的技术竞赛,最终指向的是一个更灵活、更高效、更开放的算力基础架构。谁能掌握并引领这些“算力动脉”的演进,谁就将掌握下一代计算的核心命脉。