旭创的于让尘博士在OCP 2024上做了报告,主要介绍了硅光在AI xPU Scale up的应用,包括可靠性、成本、功耗、集成度的优势以及LPO和Mountable CPO的解决方案。
前面就还是介绍了GAI数据中心网络中,GPU Scale Up网络采用DAC模块进行GPU互联时,在达到200Gbps的速率下只能实现Rack间的互联,功耗也大。比如Nvidia GB200 NVL72采用5000个DAC实现1个Rack72个GPU的互联,采用液冷的形式,功耗达到了120kW。
随着大语言模型的升级,未来需要500-1000个GPU的互联,那就必须得上光互联方案了,而且对于Scale-up optics提出了高可靠性、低成本、低功耗、高带宽密度的要求。
接下来引用了Ayar Labs关于光互联对于GPU互联的性能和经济效益分析,认为OIO的解决方案可以在GPT-4实现4倍的机器间交互性能(tokens/s)提升以及6倍的成本功耗收益(Profitability,单位是tokens/s/ ($/tokens) /W)提升,而对于GPT-X就是20倍的收益了。
接下来就开始讲旭创自己的硅光能力了。首先是可靠性上,经过所有出货的TRx芯片累积30亿小时的可靠性分析,FIT是<0.4的,证明可靠性很强。这张图仔细看的话,21Q1的累计验证时间上是1.5千万小时,到24Q2的累计验证时间达到了30亿小时,除以39个月,近三年出货量大概是10万颗?
在成本上,引用了Lightcounting的分析报告,指出硅光的高度集成特性以及直驱特性带来了成本的巨大收益,在16×200Gbps的3.2T时代,每Gbps的成本朝着0.1$的白菜价去了。
然后就说到了LPO直驱,当前800G的时候LPO和DPO的功耗对比是7W vs 14W,未来1.6T就是10W vs 25W了,每bit功耗对比是6pJ vs 16pJ@200G/lane。不过这里没比较DSP兼容LRO的方案。假如用于Scale Up带宽7.2Tbps的B200,LPO模块的功耗只有43W,只是GPU 1200W的一个零头。DPO模块此时的功耗是107W。
随后展示了今年OFC展出的800G LPO的测试结果,误码率都是达标的。但是应用在Scale Up网络,还需要依靠低损耗的ASIC到TRx链路的支持砥砺前行,需要ASIC提供>1Tbps/mm的逃逸带宽密度。行业内也努力提供低损耗、高密度连接器铜缆,例如Mellitz等就可以支持7.7dB@53GHz的带有连接器的500mm铜缆,支持200G/lane。
另外像NVSwitch也已经内置了高密连接器和线缆。因此,于博提出了一种结合低损耗共封装铜缆和高通道数LPO的设想,它既可以保留了所有可插拔光学器件的优势,又可以支持高逃逸带宽密度,同时灵活兼容铜缆(DAC/AEC)互联或光学互联两种方案。不过也需要开发新的高通道数、更高速度(200Gbps以上)的LPO。
谈到CPO,于博也提出在400G+时代可能就得考虑CPO方案了。针对原先业内提出的焊接(solder-down)式CPO方案所被人诟病的难维护、必须与大厂ASIC紧密耦合且成为ASIC的固定配置的几个问题,于博提出来Mountable CPO的形态,我理解是可插拔的光引擎的形式,既有CPO的高带宽密度的特性,又跟当前的可插拔模块一样易维护更换,可以是铜缆或光的不同配置形态。旭创当前也在OIF提出了这个方案,目标是面向400Gbps/lane的速率,带宽>6.4Tbps(16路),带宽密度>1Tbps/mm²,技术上可能会采用TFLN-on-SiPho的集大成平台。今年旭创的合作伙伴之一Tower也在OFC讲了类似的话题,但当时好像没有说具体的进展和计划。
最后还讲了一点OCS Scale Up对于光模块的高链路预算和Bidi提升OCS光口利用率的需求。
个人理解:整体逻辑就是未来光互联是必然,硅光高可靠高密低成本优势也会持续发扬光大。LPO有功耗优势但产业不成熟难推标准,就可以通过跟铜缆方案兼容的方式,拉着线缆连接器朋友来对付DSP模块;CPO也可能是大势所趋,但可以通过mountable CPO的方式,让模块厂继续有生意做;OCS如果价值大,也是光模块的一个好机会。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有