Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >OFC 2025 Google报告:AI时代的光通信挑战

OFC 2025 Google报告:AI时代的光通信挑战

作者头像
光芯
发布于 2025-04-22 05:53:43
发布于 2025-04-22 05:53:43
1070
举报
文章被收录于专栏:光芯前沿光芯前沿

在OFC会议的数据中心峰会上,谷歌带来了一场深度分享,直指AI和ML时代光通信技术面临的关键问题。报告中,谷歌明确指出可靠性与可用性、功耗、带宽规模三大“潜在砖墙”,并结合实际案例与数据,剖析挑战本质及解决思路 。

一、AI时代的光通信发展态势

当下,AI和ML成为光通信技术发展的强大驱动力,在数据中心乃至整个科技行业掀起变革浪潮。从数据可见,模型规模正以每年10倍的速度迅猛增长,随着AI应用的广泛落地,服务和推理需求也持续攀升。市场投入更是呈现出惊人态势,相关支出已达数百亿美元级别,这正是众多行业参与者齐聚于此的原因。

二、可靠性与可用性:AI工作负载的痛点

AI和ML工作负载与传统数据中心任务存在显著差异,其容错能力更弱。为运行和训练大规模模型,系统规模不断扩大,组件数量增多,故障风险也随之大幅提升。以谷歌TPU V4系统实际生产数据为例,单链路日故障率仅为0.004%,看似微小,但当链路数量达到百万级时,每日故障次数高达40次,这一规模效应带来的影响不容小觑。

在硬件和光组件方面,快速的技术迭代导致MPI周期缩短,企业往往作为新技术的首批采用者,却面临老化测试时间不足、设计迭代受限的困境。对此,只能通过精细化设计、全面的FMEA分析、严格的公差堆栈分析、超规格测试、增加样本量以及快速可靠性测试来保障质量。

量产阶段同样面临挑战,随着AI光模块需求剧增,产量和增长速度远超传统水平,传统的ORT(在线可靠性测试)难以跟上节奏。解决之道在于早期高频抽样、扩大测试覆盖范围、加强老化测试,并及时将测试结果反馈至生产环节,降低质量问题的影响范围。

在对某款收发器的实际部署分析中,谷歌发现故障模式呈现出明显的长尾效应。令人意外的是,没有一例是来自于激光器的失效,激光器本身并非故障的主要来源,反而是制造质量问题与固件漏洞成为“罪魁祸首”。供应商需从整体供应链层面提升质量管控能力。

从系统设计角度来看,谷歌提出的光交换架构由OCS、WDM收发器和环形器组成,连接TPU立方体形成3D Torus结构,约包含4000个TPU。通过OCS,任意立方体的面都能与其他立方体相对面连接,极大提升了组网灵活性。实际效果显示,在面对设备故障时,该架构可通过灵活调整连接,有效提升系统可用性,相比传统架构优势明显。

此外,快速有效的维修也是提升可靠性与可用性的关键。当前主要依赖全面监测和合理诊断流程,未来将朝着更智能的方向发展,如增加监测手段、实现组件自主报警,并借助ML实现智能化维修决策。

三、功耗:光通信技术的能耗困局与突破

AI数据中心的能耗需求呈现出爆发式增长,相关数据显示,能耗增长幅度达25 - 50%,部分大型设施已达千兆瓦级别。为实现更高的能源效率,需从硬件和系统设计两方面着手。

在硬件层面,集成化是核心方向。一方面,通过光子电子融合(PEIC)推动微观集成,减少寄生效应和传输线路损耗,降低激光功率需求,同时采用新材料提升调制器效率;另一方面,从可插拔模块向LPO、TRO、CPO等方向推进宏观集成,不同方案在节省功耗的同时,也面临着不同的技术挑战和可靠性要求。其中,CPO虽能大幅降低功耗,但对可靠性要求极高,一旦出现故障,影响范围大,维修时间长,可能导致整体能耗不降反升。

在系统设计方面,谷歌提出用OCS层替代传统数据中心网络的电spine层,这一创新举措可实现30 - 50%的成本、功耗降低和延迟优化,在功耗优化上成效显著。此外,未来还可通过能量比例互连设计,根据AI流量的确定性特点,智能控制接口的开关,进一步降低能耗。同时,提高设备利用率也是关键,网络的高可用性可保障GPU、TPU等核心设备的高效运行,间接降低整体功耗。

四、带宽规模:满足AI数据传输的迫切需求

AI应用对带宽的需求远超传统场景,推动数据中心网络向“超级云”架构演进。为满足这一需求,需从架构和芯片层面共同发力。

在架构层面,首先要最大化网络扇出,通过增加交换机端口密度,扩大网络规模;其次,提升端口速率,但单通道速率提升存在极限,当达到一定程度后,需转向并行化方案。然而,并行化需综合考虑成本和功耗,确保新技术在经济和能效上具备优势。同时,WDM和相干技术虽在某些方面有优势,但在解决带宽问题上存在局限性,并非万能方案。

芯片级I/O(OIO)方面,计算能力、内存带宽和互连带宽的增长失衡问题日益凸显。过去20多年,计算能力每两年增长约3.1倍,而内存和互连带宽仅增长1.4倍,这一差距严重制约AI和ML系统性能。光学技术被视为解决这一问题的潜在方向,但面临着极高的技术挑战,需达到10 Tb/s/mm以上的带宽密度、低于1 pJ/bit的能效,同时满足高温运行和硅基集成要求。

五、总结:直面挑战,探索未来

谷歌的此次报告清晰地展现了AI和ML时代光通信技术面临的三大核心挑战。在可靠性与可用性方面,需通过硬件优化、系统创新和智能维修提升整体稳定性;功耗问题上,硬件集成和系统架构革新是降低能耗的关键;带宽规模方面,则需在架构和芯片层面不断突破技术瓶颈。这些挑战相互关联,任何一个环节的突破都将对整体发展产生积极影响,而行业也需携手共进,共同跨越这些“砖墙”,推动光通信技术在AI时代迈向新高度。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 光芯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
OFC 2025 TeraHop报告:AI数据中心光连接技术
在人工智能技术快速发展的背景下,AI数据中心的建设对光模块技术提出了更高要求。TeraHop在OFC 2025会议上的报告,深入探讨了这一领域的现状与未来。
光芯
2025/04/22
1980
OFC 2025 TeraHop报告:AI数据中心光连接技术
盘点:光通信的五个发展趋势
在消费互联网取得巨大成功的基础上,我们开辟了行业互联网这个新蓝海,并据此提出了数字经济和数字化转型战略。
鲜枣课堂
2022/04/07
8220
盘点:光通信的五个发展趋势
OFC 2025 Google报告: OCS技术使能AI集群的高效扩展,显著提升系统可用性和能效
5. 总结 Google 通过光交换技术实现了 AI 集群的高效扩展,显著提升系统可用性和能效。OCS 的动态拓扑调整、WDM 复用和环形器设计,使其成为大规模 AI 训练的关键技术。未来,随着超大规模数据中心的发展,OCS 技术将在行业中发挥更重要作用,推动 AI 基础设施的革新。
光芯
2025/04/08
2010
OFC 2025 Google报告: OCS技术使能AI集群的高效扩展,显著提升系统可用性和能效
OFC 2025预热(一):大厂的一些关于数据中心光互连的邀请报告
OFC 2025周末就要开了,看点多多。今天先来看看会议上大厂们在数据中心光互连这一块会有哪些报告分享吧。
光芯
2025/04/08
2490
OFC 2025预热(一):大厂的一些关于数据中心光互连的邀请报告
重磅!诺基亚完成欧洲800G光通信突破,引领光通信技术浪潮
诺基亚携手Zayo Europe完成欧洲首例800G超长距传输,创下千公里级光通信新纪录。
通信行业搬砖工
2025/04/13
1110
重磅!诺基亚完成欧洲800G光通信突破,引领光通信技术浪潮
骨干网光通信的最新趋势
大家也许都有所耳闻,从去年开始,国内运营商骨干网已经全面拉开了400G商用的帷幕。
鲜枣课堂
2024/05/17
2380
骨干网光通信的最新趋势
AI 如何改变光网络的未来?
随着大型企业及超大规模网络对人工智能工作负载和高带宽需求的日益增长,对光纤连接技术的需求也在显著上升。思科光学系统的高级副总裁兼总经理Bill Gartner指出,由于光纤具有卓越的传输能力,它已经成为连接数据中心、服务器、路由器、交换机以及网络架构中广泛分布的各个组件,以实现远距离高速数据传输的首选技术。
通往ICT之路
2024/07/12
2160
AI 如何改变光网络的未来?
光电共封装(CPO)产业链投资机会梳理
2025年3月18日,在GTC2025发布会上,英伟达推出了全新的NVIDIA Photonics硅光子技术。这项技术通过共封装光学(CPO)取代传统的可插拔光学收发器,使光纤直接连接到交换机,大幅减少数据中心的功耗。据英伟达测算,该技术可降低40MW的功耗,并提高AI计算集群的网络传输效率,为未来超大规模AI数据中心奠定基础。基于此,英伟达推出Spectrum-X与Quantum-X硅光子网络交换机,通过将电子电路与光通信技术深度融合,助力AI工厂连接跨地域的数百万GPU集群,从而降低能耗与运营成本。这表明,CPO技术为未来发展趋势。
AIGC部落
2025/03/21
1910
光电共封装(CPO)产业链投资机会梳理
AFL白皮书:用于AI数据中心的高级网络
本文探讨针对AI工作负载优化的数据中心的关键考量因素。由于大语言模型(LLMs)对计算能力需求不断增长,数据中心需先进网络和创新物理层解决方案。还将了解AI数据中心在能耗、冷却、物理空间、网络拓扑、前后端网络及可扩展性方面的特点,为后续深入研究奠定基础。
AIGC部落
2025/03/24
1130
AFL白皮书:用于AI数据中心的高级网络
Nvidia探索光交换OCS在数据中心及高性能计算集群中的应用
这个工作是Nvidia最近在Optica旗下的JOCN期刊上发表的一篇邀请文章(https://doi.org/10.1364/JOCN.534317),主要内容今年在OFC都讲过,有些公众号也介绍过了。主要通过将OCS引入到L1物理层,实现物理层的可重构、可编程,能够实现数据中心的高效率自动故障恢复以及在深度学习训练中实现拓扑精简和优化。这里做个简单翻译重温一下,细节大家可以看看原文
光芯
2025/04/08
1460
Nvidia探索光交换OCS在数据中心及高性能计算集群中的应用
2023年已过大半,光通信领域有哪些值得关注的技术趋势?
引言:上个星期,小枣君去深圳参加了CIOE中国光博会,获得了一些光通信领域的最新技术动态进展。今天,我来和大家做一个分享。
鲜枣课堂
2023/10/20
7560
2023年已过大半,光通信领域有哪些值得关注的技术趋势?
【硬核扫盲】到底什么是相干光通信?
相干光通信,英文全称叫做Coherent Optical Communication,是光纤通信领域的一项技术。
鲜枣课堂
2022/05/23
2.4K0
【硬核扫盲】到底什么是相干光通信?
OFC 2025预热(二):短距光互连的明星初创公司们
今天来看看OFC 2025上那些明星初创公司都介绍了哪些有意思的进展。主要介绍的公司之前都有陆续写过,包括Ayar labs,、Lightmatter、Celestial AI、OpenLight、Xscape、Lucidean等。Lightmatter和Celestial AI的验证结果展示感觉是脚步最快、最惊艳的(也体现到他们的融资上),Ayar Labs在瞄准大规模制造优化耦合封装方案,而Xscape、Lucidean公司也有了不俗的进展,Nubis展示了新的应用场景,奇点光子开始露面,Openlight平台在持续演进,昨天Tower新闻稿提到的400G/lane技术看会不会在会场有介绍。
光芯
2025/04/08
1800
OFC 2025预热(二):短距光互连的明星初创公司们
DeepSeek回答对光通信领域的影响
问了一下DeepSeek,让他回答一下他自己对光模块、CPO/OIO以及OCS的影响,以下是他的回答,仅供娱乐:
光芯
2025/04/08
1120
DeepSeek回答对光通信领域的影响
OFC 2025:薄膜铌酸锂的产业化讨论
该论坛围绕薄膜铌酸锂(TFLN)技术在光通信领域的应用与发展展开,来自Ciena、新易盛、富士通、光库、AFR的代表分别从客户需求、技术研发、产品商业化等角度进行阐述,并在最后进行了问答环节,探讨了TFLN技术的现状、挑战与未来前景。
光芯
2025/04/11
1420
OFC 2025:薄膜铌酸锂的产业化讨论
OFC2024: CPO时代来临了吗?
今年的OFC大会上,来自Marvell的Matthew Traverso做了题为"Advancement in CPO and Ecosystem"的邀请报告,系统地梳理了芯片大厂在CPO领域的进展。小豆芽这里整理下相关信息,供大家参考。
光学小豆芽
2024/06/07
1.3K2
OFC2024: CPO时代来临了吗?
谷歌TPU超算,大模型性能超英伟达,已部署数十台:图灵奖得主新作
机器之心报道 编辑:泽南 性能和效率都超越英伟达 A100,这样的超算我有不止十台。 我们还没有看到能与 ChatGPT 相匹敌的 AI 大模型,但在算力基础上,领先的可能并不是微软和 OpenAI。 本周二,谷歌公布了其训练语言大模型的超级计算机的细节,基于 TPU 的超算系统已经可以比英伟达的同类更加快速、节能。 谷歌张量处理器(tensor processing unit,TPU)是该公司为机器学习定制的专用芯片(ASIC),第一代发布于 2016 年,成为了 AlphaGo 背后的算力。与 GPU
机器之心
2023/04/06
7140
谷歌TPU超算,大模型性能超英伟达,已部署数十台:图灵奖得主新作
从千兆到万兆:中国光通信的“标准”之路!
近日,由中国通信标准化协会(CCSA)主办,烽火通信与光迅科技联合承办的TC6 WG3/WG4第100次会议在湖北武汉顺利召开。本次会议聚焦通信领域前沿技术,围绕预成端ODN、多模光纤、XPON光模块等关键技术标准进行了统一规范及更新,同时对光纤频谱资源的拓展应用等内容开展了深入研讨。此次会议不仅标志着中国通信标准化工作的重要里程碑,也为未来光通信技术的发展指明了方向。
通往ICT之路
2025/03/18
1070
从千兆到万兆:中国光通信的“标准”之路!
800G光模块:引领未来数据中心与网络通信的新引擎
随着5G、云计算、人工智能和大数据技术的飞速发展,全球数据流量呈现爆发式增长。据预测,到2025年,全球数据总量将达到175ZB(泽字节),这对网络带宽和传输效率提出了前所未有的挑战。在这一背景下,800G光模块作为下一代高速光通信的核心组件,正迅速成为数据中心和网络通信领域的热门话题。本文将为您深入解析800G光模块的技术优势、应用场景以及市场前景。
武汉格凌科技
2025/02/07
4120
800G光模块:引领未来数据中心与网络通信的新引擎
解读中国电信韦主任关于光通信发展的新趋势思考
韦乐平:中国电信集团科技委主任,是一位深耕通信行业多年的杰出技术专家和领导者。他在光通信领域拥有深厚的技术背景和丰富的实践经验,被誉为光通信发展的权威人士。
通信行业搬砖工
2023/10/24
3600
解读中国电信韦主任关于光通信发展的新趋势思考
推荐阅读
相关推荐
OFC 2025 TeraHop报告:AI数据中心光连接技术
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档