
在OCP 2025全球峰会上,Micas Networks与Supermicro联合带来了题为“Breaking the Power Wall with Co-Packaged & Liquid Now!”的主题分享,聚焦AI数据中心面临的功耗与散热瓶颈,详解了共封装光学(CPO)与液冷技术的协同解决方案,为AI基础设施规模化部署提供了切实可行的路径。本次分享由Micas Networks的Kris Tsao主持,邀请到Micas Networks首席架构师Andrew Qu与Supermicro资深增长产品经理Johnson Eung,结合近三十年行业经验与实战案例,全方位拆解技术创新与落地价值。

◆ AI数据中心的核心困境:功耗与散热的双重壁垒
随着AI技术的爆发式发展,数据中心的功耗需求正呈指数级增长。曾经数百台300WGPU的部署规模已被视为“杯水车薪”,如今AI机架的功耗已突破每架100kW,部分场景更是迈入吉瓦级阶段——一台AI机架的功耗相当于同时为45辆特斯拉充电,远超传统数据中心8kW的设计标准。传统可插拔光模块与风冷方案的局限性日益凸显:风冷效率低下,无法应对高密度算力的散热需求;可插拔模块不仅占用大量空间,还存在信号损耗与功耗浪费问题,成为AI规模化部署的“绊脚石”。
更严峻的是,数据中心部署常面临决策与运营的脱节:采购团队与运维团队的需求割裂,导致新增AI集群时极易触发数据中心HVAC阈值,引发部署延迟或失败,而网络层面的问题往往是导致这些故障的核心原因之一。如何在控制功耗与散热的同时,保障系统的扩展性、可靠性与成本效益,成为全行业亟待解决的关键命题。

◆ 核心解决方案:CPO与液冷技术的协同创新
针对上述困境,Micas与Supermicro提出了“CPO+液冷”的一体化解决方案,从架构设计源头突破功耗壁垒,实现性能、可靠性与成本的三重优化。
① 液冷技术:千倍效率的散热革命
液冷技术的核心优势在于其远超风冷的散热效率——散热能力达到风冷的上千倍,能够精准应对高功耗芯片的散热需求。当前主流ASIC单芯片功耗已达1500W,未来6000W级芯片的出现更让液冷成为必然选择。Micas Networks基于生态成熟度与数据中心架构需求,将液冷技术延伸至以太网交换机及芯片本身,通过直接冷却核心发热部件,避免了发热中断对设备运行的影响。

从实际应用来看,Supermicro的B200液冷服务器相比同型号风冷产品,功耗降低幅度达5%。这一看似微小的比例,在吉瓦级数据中心中能释放巨大价值:一个部署40万台B200 GPU的吉瓦级集群,采用液冷方案后可额外容纳20万个GPU。参考微软以19.5亿美元租赁10万个同代GPU的案例,液冷带来的算力增量直接转化为显著的商业价值,同时有效控制数据中心的能耗预算。
② CPO技术:重构网络架构的关键突破
共封装光学(CPO)技术通过将光模块直接集成到ASIC芯片中,彻底摒弃了传统可插拔光模块,从根本上解决了可拓展性难题。这一创新设计不仅减少了可插拔模块的使用,更实现了三大核心价值:
功耗方面,CPO交换机相比同规格传统交换机功耗降低超50%——以Micas TH5系列为例,128端口的×400G FR4传统可插拔400G DR4光模块功耗为3267瓦,而CPO 400G FR4仅为1626瓦,功耗节省达50.23%。

扩展性方面,CPO技术大幅提升了单台交换机的端口密度,能够支撑更大规模的胖树无阻塞拓扑。即使在现有数据中心基础上新增服务器,也能有效控制对供电与散热系统的额外需求,避免触发HVAC阈值,实现“无惊喜”的平滑扩容。

可靠性方面,CPO技术通过结构优化降低了故障风险:将激光源从ASIC芯片旁分离并前置为可插拔模块,既规避了核心部件的热干扰,又解决了传统设计中可维护性的顾虑。该激光源已通过供应商超5000万个单位的部署验证,生命周期可靠性得到充分保障;更有超大规模用户的实地测试证明,基于CPO技术的交换机系统运行超400万小时无单次端口波动,彻底打消了运维层面的担忧。

此外,NVIDIA也在CPO领域持续发力,其Quantum-X平台推出的Q3450-LD交换机,搭载144个800Gb/s InfiniBand端口,采用液冷设计冷却板载硅光器件,支持800Gb/s速率下的无阻塞两级胖树拓扑,进一步丰富了CPO技术的应用生态。
◆ 端到端部署:从测试到落地的全流程保障
为确保解决方案的落地效果,Micas与Supermicro构建了“预验证+现场支持”的端到端部署体系,将数据中心部署从“组件拼接”升级为“构建块解决方案”。

在测试环节,双方建立了L11节点级与L12集群级的双重测试标准。L11节点级测试通过全自动化量产测试流程,完成超过30项严格检测,包括配置验证、应用加载等,测试报告实时生成;L12集群级测试则覆盖56种以上工作负载与基准测试,涵盖NVQual、GPU验证、NCCL、ResNet-50/101等AI核心场景,确保系统在实际应用中的稳定性。

在现场部署阶段,合作双方提供从机架安装、集成调试、软件安装到基准测试的全流程支持。针对自有运维团队的客户,可提供专业咨询服务,由产品经理团队直接对接;对于需要全程支持的客户,则派遣技术人员驻场执行部署,将传统部署中5-8%的运输与安装故障率降至接近零,帮助客户提前数周实现集群上线。
◆成本效益:CAPEX与OPEX的双重节省
技术创新最终落地为显著的成本优势。以一个27000个GPU的大规模集群为例,采用Micas CPO交换机与Supermicro液冷方案,可实现可观的资本支出(CAPEX)与运营支出(OPEX)节省。

CAPEX方面,该集群需部署1376台128端口400G CPO交换机,每台设备可节省2.7万美元的物料成本,整体CAPEX节省达3710万美元。OPEX方面,相比传统可插拔交换机,CPO方案的总功耗降低1202千瓦,按美国超大规模数据中心平均0.08美元/千瓦时的电费计算,3年累计OPEX节省约250万美元,成本优势极为显著。
◆ 行业展望:AI基础设施的未来方向
Andrew Qu在分享中强调,CPO与液冷技术的融合并非临时解决方案,而是数据中心架构演进的必然趋势。随着AI算力需求的持续增长,芯片功耗将进一步提升,网络架构的密度与效率要求也将不断提高,CPO带来的低功耗、高带宽优势,与液冷技术的高效散热能力,将成为支撑AI基础设施规模化的核心支柱。
Micas与Supermicro的合作,不仅实现了技术层面的互补,更构建了“从芯片到数据中心”的全栈能力,通过预验证的解决方案、全程化的部署支持与可量化的成本效益,帮助企业快速抢占AI规模化部署的竞争制高点。本次OCP 2025全球峰会Micas与Supermicro的分享尝试证明,突破AI数据中心的功耗壁垒,关键在于架构层面的根本性创新。CPO与液冷技术的协同,不仅解决了当下的部署痛点,更定义了未来AI基础设施的核心形态,为全行业提供了一套“高性能、高可靠、低成本”的规模化部署范本。