首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >HotChips 2025深度解析(一):AI计算突破“数据传不动”瓶颈,网络与光I/O成关键支撑

HotChips 2025深度解析(一):AI计算突破“数据传不动”瓶颈,网络与光I/O成关键支撑

作者头像
光芯
发布2025-09-11 14:24:37
发布2025-09-11 14:24:37
590
举报
文章被收录于专栏:光芯前沿光芯前沿

本文来自于youtube博主“最佳拍档”的硬核解说(视频链接:https://youtu.be/fgoQYlLT_IY?si=lEgESWSKvmaATEyY),视频很长但也讲解得超级棒,大家可以看下原视频,总共有一个小时的时间,这里将作者的原稿拆解成三篇来写,分别涵盖:

①AI计算领域 + 网络领域 + 光I/O领域

② CPU领域 + 图形领域

③ 安全领域 + 散热领域

一、开场引言

  1. 主持人与大会定位:由 “最佳拍档” 的大飞主持解析,Hot Chips 是芯片及系统设计领域 “年度风向标”,本届大会呈现了三类关键技术 —— 可桌面部署的 AI 超算芯片、光互连技术、十亿瓦级数据中心散热方案,均对未来科技底层逻辑有改写意义。
  2. 解析逻辑与议程:按 “AI 计算→网络→光 I/O→CPU→图形→安全→散热” 脉络解析;大会议程分两天 —— 首日聚焦 CPU、安全、图形、网络四大 “基础支柱”(英特尔、IBM、AMD、英伟达等巨头参与),次日聚焦光学、散热、机器学习(针对 AI 时代 “内存焦虑”“低功耗高算力” 等核心痛点)。

二、AI 计算领域:突破 “数据传不动” 核心瓶颈

1. Marvell:优化 “近 - 远内存” 全链路

  • 核心观点:“存储是唯一重要的东西”,通过三项创新覆盖近内存到远内存优化。
  • 具体技术
    • 定制 SRAM:业界首款 2nm 设计,提供 6Gb 高速内存;相同工艺下带宽密度为标准 SRAM 的 17 倍,面积减少 50%,待机功耗减少 66%;通过提升运行速度、加宽单元、增加端口,确保 1Mb 大型 SRAM 阵列保持高带宽密度,适配 AI 推理高频数据读取。
  • 定制 HBM:与 SK 海力士、三星、美光合作,优化 HBM 基片与接口,减少 I/O 接口面积;采用标准 DRAM 芯片 + 加速器定制基片,搭配 “30Tbps/mm” 的下一代 D2D IP,缓解物理 / 散热限制,降低功耗,空出空间可容纳更多计算单元。
  • CXL 控制器:推出 Structera CXL 产品线,解决传统内存扩展 “绕路” 问题(传统需经 CPU 和 PCIe 交换机,延迟高、带宽损耗大);其中 Structera A 近内存加速器集成 16 个 Arm Neoverse v2 CPU 核心、4 通道 DDR5,内存带宽 200GB/s、容量 4TB,功耗不足 100W;实例:64 核高端 x86 CPU 服务器加该芯片,可增 25% 核心数、50% 内存带宽、4TB 内存,总功耗仅多 100W,每 GB/s 传输功耗下降。

2. d-Matrix:重构 “存内计算” 关系

  • 背景:小参数模型性能超大型模型,但生成 token 时受内存限制;实时场景(语音、AI agent)对延迟要求极高,传统架构无法满足。
  • 核心产品:AI 推理芯片 Corsair
    • 架构与性能:采用数字存内计算架构,搭配自定义矩阵乘法电路和块浮点数据格式;能效 38TOPS/W,FP8 精度算力 2400TOPS,FP4 精度算力 9600TOPS;跑 Llama3-70B 模型单 token 生成时间仅 2ms。
  • 硬件设计:台积电 6nm 工艺,每张 PCIe 卡含 2 个封装(每个封装 4 个 chiplet),共 2GB SRAM,内存带宽 150TB/s;支持扩展 —— 两张卡可通过 DMX Bridge 连成 16 个 chiplet(All-to-All 连接),标准服务器可装 8 张卡,还能通过 PCIe 或以太网扩展至多台服务器。
  • 细节:每个 chiplet 含 4 个 Quad(每个 Quad 含 4 个 Slice、1 个 RISC-V 控制核心、1 个调度引擎),每个 Slice 含 DIMC 核心、SIMD 核心、数据重塑引擎;支持 “块浮点格式”(一个块内数据用相同缩放因子运算,兼顾整数效率与浮点动态范围)。

3. 华为:“超节点网络” 连接百万级芯片

  • 目标:针对十亿瓦级 AI 数据中心,构建 “超节点”(大量设备连成大型计算系统),实现芯片数量扩展至 100 万、带宽 10Tbps,数据传输模式从 “异步 DMA” 转为 “同步加载 / 存储”,可连接 CPU、GPU、内存池、SSD、网卡、交换机。
  • 解决方案:统一总线网格(UB-Mesh)
    • CLOS 拓扑:适配 100 万个节点的低带宽顶级网络,特点是多功能、高可靠。
  • nD mesh 拓扑:适配 64 节点机架或 128-8192 节点大 Pod,特点是本地带宽高、远程带宽按需减少。
  • nD sparse mesh 拓扑:适配 16-128 节点小型部署,特点是成本低、带宽高。
  • 核心优势:用 “统一协议 + 混合拓扑” 实现成本 “亚线性增长”(传统网络需 100 倍带宽时成本或涨 1000 倍,UB-Mesh 节点越多成本增长越慢)。
  • 拓扑技术
  • 可靠性优化:基于大语言模型训练 “流量两两分层” 规律设计拓扑,提升带宽利用率;通过 “链路级重试”(故障时在同模块重试其他光纤链路)、“MAC 交叉连接”(MAC 模块连多个光学模块)减少故障影响;设 “热备机架”(故障机架下线后热备接管,修好后转为新热备),带额外芯片的机架可作 “弱热备” 提供部分算力,目标将 MTBF(平均无故障时间)提升 100 倍。

4. 英伟达:桌面级 AI 超算 GB10 SoC

  • 定位:将 AI 超算搬至桌面,作为 DGX Spark 小型工作站核心,适配中小企业高性能 AI 计算需求。
  • 架构与参数:集成英伟达 Blackwell GPU 和联发科 20 核 Arm CPU;台积电 3nm 工艺 + 2.5D 先进封装,继承 Blackwell 核心功能;128GB 低功耗 LPDDR5x 统一内存,FP32 精度 AI 性能 31TFLOPS,FP4 精度 1000TFLOPS,TDP(热设计功耗)仅 140W(适配桌面场景)。
  • 关键优势:24MB L2 缓存实现 CPU 与 GPU 缓存一致性,降低数据传输开销,简化软件开发(无需频繁同步数据);扩展性:单机能跑 2000 亿参数大模型或 700 亿参数微调模型,用 ConnectX-7 网卡连两台可支持超 2000 亿参数场景。

5. AMD:MI350 系列(3D 堆叠 + 低精度支持)

  • 架构基础:基于 CDNA 4 架构,专为生成式 AI 设计。
  • 硬件设计:3D 芯片堆叠技术,两个 6nm I/O 基片上堆叠 8 个 3nm XCD 芯片,共集成 1850 亿晶体管(AI 芯片第一梯队);支持标准 OAM 封装,分 MI350X(风冷)、MI355X(液冷,总板功耗 1400W,适合高密度部署,计算性能高于风冷)。
  • 内存与缓存:HBM 带宽比上一代多 2TB/s,内存容量更大(减少跑模型所需 GPU 数量,降低部署成本);本地数据共享 LDS 容量比上一代 MI300 翻一倍,XCD 芯片峰值引擎时钟频率 2.4GHz,每个 XCD 含 4MB L2 缓存。
  • 精度与软件:支持 FP8、行业标准 MXFP6 和 MXFP4 格式(低精度提升算力密度、降低内存占用);搭配 ROCm 7 软件栈,MI355X 跑 DeepSeek R1 模型推理速度是上一代 MI300X 的 3 倍,FP4 精度性能超英伟达 B200,预训练 Llama 3 70B 模型性能达上一代 2-3 倍;预告明年发布 MI400 系列(搭载 432GB HBM4)。

6. 谷歌:Ironwood TPU(大规模 AI 推理专用)

  • 定位:谷歌首款专为大规模 AI 推理设计的 TPU,覆盖性能、扩展、能效、可靠性维度。
  • 核心参数:单 SuperPod 最多容纳 9216 颗芯片,采用 OCS(光交换)共享内存,可直接寻址的共享 HBM 内存 1.77PB,FP8 精度单 SuperPod 性能 42.5EFLOPS;每瓦性能是上一代 Trillium 的 2 倍,支持机密计算,集成可靠性与安全性功能。
  • 硬件与设计:首款双计算 die TPU,8 层 HBM3e 内存(192GB 容量、7.3TB/s 带宽);与 AlphaChip 团队合作,用 AI 设计 ALU(算术逻辑单元)电路和芯片布局(“用 AI 造 AI 芯片”),提升设计效率与性能。
  • 扩展与散热:支持单 SuperPod 扩展至 9216 芯片,可横向扩展至数十个 SuperPod;硬件形态 —— 每个 Ironwood Tray 含 4 个 TPU(液冷),16 个 Tray 装一个机架(64 个 TPU),连 16 个 CPU 主机机架(机架内用铜缆,OCS 连其他机架);搭配第三代液冷系统(多重循环设计,防冷却板堵塞),集成第四代 SparseCore(嵌入和集体卸载任务);软硬件平滑电力波动,避免功耗骤升骤降影响稳定。
  • 突破:创 “共享内存多处理器” 新纪录,1.77PB HBM 实现低开销高带宽共享,每瓦性能达 TPUv4 的近 6 倍、Trillium 的 2 倍。

三、网络领域:AI 集群 “生命线” 优化(减负、提速、保可靠)

1. 英特尔 IPU E2200 400G

  • 定位:卸载并加速网络传输基础设施工作负载,解决数据中心 CPU “多任务过载”(CPU 需同时处理计算、网络、存储,易被网络拖累)。
  • 工艺与配置:台积电 N5 工艺;含 PCIe Gen5 x32 域、400G 以太网 MAC、Arm Neoverse N2 核心计算单元;支持 P4 可编程数据包处理、高性能内联加密,提供自定义可编程卸载选项。
  • 工作模式:多主机模式、无头模式、融合模式,兼容性强。
  • 落地场景:云环境卸载虚拟机网络转发,降低 CPU 占用;存储场景加速分布式存储数据流,提升访问速度;AI 集群优化跨节点数据同步,减少训练延迟。

2. AMD Pensando Pollara 400 AI 网卡

  • 标签:业界首款超以太网联盟(UEC)就绪的 AI 网卡,解决 AI 横向扩展网络痛点(ECMP 负载平衡链路利用率低、网络 / 节点拥塞、丢包 —— 丢包可能导致训练重启)。
  • 核心优势:采用 P4 架构(数据平面编程语言)构建数据包流程,灵活定义处理逻辑;可动态调整路由策略、优化虚拟 - 物理地址转换(降延迟),原子内存操作设计在 SRAM 相邻位置(进一步降延迟),增强 “管线缓存一致性”(确保多节点数据同步高效)。
  • 性能:搭配 AMD RCCL(分布式深度学习通信库),AI 训练性能提升 40%。

3. 英伟达 ConnectX-8 SuperNIC

  • 规格:PCIe Gen6 网卡,最高速率 800Gb/s,48 个 PCIe Gen6 通道(当前速率最高网卡之一),适配 “集群计算”(数据中心从单服务器转向集群,GPU 需与其他设备快速通信)。
  • 兼容性:同时支持 Spectrum-X 以太网(成本低、兼容性强)和 Quantum-X Infiniband(延迟低、性能高),用户无需换网卡即可切换。
  • 部署场景:首个部署于 GB300 NVL72—— 用 Gen5 x16 链路连 Grace CPU(Grace 以 PCIe Gen5 运行),Gen6 x16 链路连 B300 GPU(高带宽),留 Gen5 x4 链路连 SSD(存储访问);英伟达 MGX PCIe 交换机板卡也采用该网卡,支持博通交换机芯片,为未来 B300 PCIe GPU 提供 Gen6 到 NIC 的高速连接。
  • 效率优化:集成 PSA 数据包处理器和 DPA(数据路径加速器,RISC-V 事件处理器),实时处理网络事件,减少 CPU 干预;与 Spectrum-X 拥塞控制、路由配合,降低延迟,提升 AI 训练稳定性(Spectrum-X 在训练时间步长和尾部延迟上优于传统以太网)。

4. 博通 Tomahawk Ultra

  • 定位:为高性能计算和 AI 扩展设计,平衡性能与成本(博通交换机中,Tomahawk 6 是 102.4Tbps 专用芯片,Tomahawk Ultra 侧重性价比)。
  • 核心功能
  • 链路层重传:补充以太网 FEC(前向纠错),提升突发错误 / 次优链路健壮性,减少高延迟端到端重传。
  • CBFC(基于信用的流量控制):防止交换机缓冲区溢出,避免丢包。
  • AI Fabric Header:覆盖以太网 MAC header,保留有用字段,优化传输效率且保持 MAC 兼容性(无需改现有设备)。
  • 网络计算支持:加速 AI 训练中 All-Reduce 等集体操作,减少节点间数据传输次数。
  • 路由与延迟:支持拓扑感知自适应路由(避免链路过载),拥塞控制确保流量均匀;64B 数据包测试延迟不到 250ns(接近 Infiniband),兼具低延迟与以太网成本优势。

四、光 I/O 领域:替代电连接,解决传输瓶颈

1. Celestial AI

  • 技术基础:参与台积电 5nm/4nm 早期创新客户计划,完成四次流片,技术成熟度高;重点是 “带中介层的 HBM”(HBM 为 AI 芯片核心内存,用光连接优化数据流,直接提升 AI 计算效率)。
  • 核心技术
    • PFLink 技术:含硅光子层,集成无源和有源元件;实现 “SerDes 与通道匹配”,达到超高能效;构建光 MAC(OMAC),确保光连接可靠性(RAS 功能),避免链路故障影响系统。
  • 光 / 电 fabric 差异:提出 “电 fabric 与光 fabric 扩展定律不同”—— 多芯片封装尺寸增大时,电 fabric 带宽受物理接口数量限制,光 fabric 带宽持续增长(光可并行多通道、无电磁干扰),未来大规模多芯片封装中光 fabric 成必然选择。
  • 安全落地:展示 CoWoS-L 芯片组的 OIMB(光学多芯片互连桥),解决光信号易被窃听问题,确保光传输安全,适配金融、政务等敏感场景。

2. Ayar Labs TeraPHY 光 I/O 芯片

  • 目标:用光学技术实现 AI 系统横向扩展(大规模 AI 系统需将数百万芯片连成集群,传输距离 3 米(机架内)至 15 米(多机架),电 I/O 会导致机架功耗暴涨)。
  • 核心方案:UCIe 光 I/O 重定时器(UCIe 为新芯片互连标准),做成 UCIe Chiplet,可集成到 AI 芯片封装,无需改现有芯片设计,兼容性强;速率 8Tbps,提供大量封装外带宽,解决 AI 芯片 “对外传不动数据” 问题。
  • 创新设计:解耦光信号与电信号(传统光连接中两者路径绑定,一个故障则链路报废);UCIe 接收器先重定时电信号,再转光信号传输,各自优化空间大、易排查故障。
  • 进展与测试:已进入设计验证测试阶段,即将量产;完成长期链路稳定性测试(如热循环测试 —— 通过优化封装材料,确保光链路在芯片加热 / 冷却导致材料膨胀收缩时仍稳定);展示 500W 共封装设备,证明光 I/O 适配高功率 AI 芯片散热,突破低功耗场景限制。

3. Lightmatter

  • 核心概念:“3D 光中介层”,推出 Passage M1000 平台 —— 在光中介层上封装计算和内存芯片,用 3D 堆叠实现紧凑结构 + 超高带宽(解决芯片互连痛点:芯片外围物理区域有限,I/O 接口数量不足,100 倍以上带宽需新范式,3D 光中介层即新范式)。
  • 参数与准备:Passage M1000 预期速率 114Tbps,是迈向 200Tbps XPU 和 400Tbps 交换机的第一步,已做好生产准备。
  • 关键突破:解决光学元件与电 SerDes 尺寸匹配问题(光元件通常更小,直接集成浪费空间);用硅微环谐振器调节光信号,实现紧凑光 I/O,尺寸匹配不浪费封装空间;硅微环谐振器优势:尺寸小(有限空间集成更多通道)、功耗低(调节光信号需能少)、响应速度快(跟上 AI 芯片高频传输)。
  • 辅助设计:光引擎 Lightmatter Guide(负责光信号生成、传输、接收);平台可重构(根据工作负载调整光链路,灵活性强);Tile 设计含 16 条水平总线(十字形金属缝线实现电气连接),光路交换提供冗余(一条链路坏则其他可用,提升可靠性)。

4. 英伟达

  • 重点方向:“跨区域扩展”,推出 Spectrum-XGS 以太网技术,目标将多个分布式数据中心组合成 “十亿瓦级 AI 超级工厂”。
  • 核心支撑
    • 硬件:“200G/SerDes 共封装光学” 技术(传统可插拔光学引擎需额外电力和空间,共封装直接将光学元件与交换机芯片封在一起,无需额外供电,省电力);NVIDIA Photonics 硅光 CPO 芯片(速率 1.6T,采用新型微环调制器,提升能效);Spectrum-6 102T 集成硅光交换机(吞吐量翻倍、可靠性更高、功耗更低),搭配 Spectrum-X 和 Quantum-X 交换机形成完整光网络产品线。
  • 算法:“距离感知算法”—— 不同数据中心距离几十到上百公里,光信号传输有延迟,算法根据距离动态调整传输策略,确保整体性能;数据:Spectrum-XGS 技术下多站点 NCCL 横向扩展性能是传统 OTS 以太网的 1.9 倍,加速多 GPU 和多节点通信,突破单个数据中心资源限制。
  • 未来布局:即将推出 CPO 网络交换机,抢占共封装技术赛道(共封装是未来光网络主流方向)。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 光芯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、开场引言
  • 二、AI 计算领域:突破 “数据传不动” 核心瓶颈
    • 1. Marvell:优化 “近 - 远内存” 全链路
    • 2. d-Matrix:重构 “存内计算” 关系
    • 3. 华为:“超节点网络” 连接百万级芯片
    • 4. 英伟达:桌面级 AI 超算 GB10 SoC
    • 5. AMD:MI350 系列(3D 堆叠 + 低精度支持)
    • 6. 谷歌:Ironwood TPU(大规模 AI 推理专用)
  • 三、网络领域:AI 集群 “生命线” 优化(减负、提速、保可靠)
    • 1. 英特尔 IPU E2200 400G
    • 2. AMD Pensando Pollara 400 AI 网卡
    • 3. 英伟达 ConnectX-8 SuperNIC
    • 4. 博通 Tomahawk Ultra
  • 四、光 I/O 领域:替代电连接,解决传输瓶颈
    • 1. Celestial AI
    • 2. Ayar Labs TeraPHY 光 I/O 芯片
    • 3. Lightmatter
    • 4. 英伟达
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档