2023年上半年,通信板块一路领跑。2月以来随着chatGPT的火爆,景气度从光模块传导到服务器、交换机等设备,市场对数据中心的算力网络的增长预期大幅提升。展望下半年,我们认为AI依然是今年主线,长期来看,建议关注中国光模块产业链崛起机遇。
大模型是一种新的生产力工具
大模型的出现是一系列的变革,我们看到不仅是800G光模块、HBM需求旺盛的现象,其背后是深度学习对于链上所有参与环节的突破,包括解决存储墙出现的HBM、解决算力墙出现的集群和分布式训练、解决通信墙而出现的网络架构革新、解决功率墙出现的液冷等等,是通信和电子一系列技术新一轮的变革。
本轮光模块800G周期有何不同?网络架构变革是800G超预期的原因。光模块行业是一个周期成长的行业,本身遵循光摩尔定律,即每2-3年网络带宽翻倍,因此光模块公司的业绩往往跟随速率升级的周期节奏。而本轮800G周期和以往100G、400G的不同之处在于,不仅仅是速率升级,还有网络架构的变革。我们看到AI数据中心网络架构有两个变革:一个是从Spine-Leaf架构Fat-tree架构;二是GPUAll-to-all直连,这两种变革都额外地、大幅地增加了光模块需求。我们测算,由于使用Fat-tree的架构,DGXA100中GPU:光模块的比重将达到1:6,而GPUAll-to-all直连是光模块增量最大的部分,使得GPU:光模块从1:2.5大幅提升至1:7。
网络架构变革的驱动力
传统适用于HPC的网络,无法满足大模型集群训练的带宽和时延需求。大模型训练的本质是将权重参数网络多次迭代,海量的数据因此需要不停地从存储和计算单元反复转移,需要至少数百万次的迭代,直到输出可接受的结果。而分布式训练需要GPU之间通信,使得AI/ML数据中心东西流量大增,流量模式也异于传统云计算。分布式训练的两种方式——数据并行(Dataparallelism)和模型并行(Modelparallelism),都涉及频繁的GPU间通信。无阻塞(Non-blocking)的网络,由于其不收敛的特点,可以提高网络效率,加快训练速度,这是专用于AI/ML训练的数据中心,其网络架构从Spin-leaf转到Fat-tree的原因。GPU本身为了解决存储墙而对HBM的采用,虽然使得存储带宽的大幅提升,但也进一步拉大了存储带宽和网络带宽的差距,使得网络带宽成为算力瓶颈,这是推动GPU进行all-to-all直连的原因。
未来,模型大型化的演进,会持续提升的算力需求。AI对算力增长的推动主要来自两个方面:1、更大规模的模型;2、多模态模型。HBM迭代加快,更高带宽的HBM3E有望今年底量产,将进一步推动网络带宽的提升。算力、存储、网络是绑定关系,更高的算力、更大带宽的存储,必然需要升级网络。第二代800G产品将采用200GPAM4,可以进一步提升带宽、降低功耗。在今年的3月举办的OFC上,包括II-VI等在内的头部光模块厂商都展出了基于200GPAM4方案的800G和1.6T光模块样品,产业落地逐步加快。
光模块已成优势产业有望尽享800G红利
近5年来,中国光模块厂商凭借强大的工程师红利,在与海外光模块厂商竞争中不断占据上风。2022年,合计七家光模块厂商进入全球前十,中际旭创更是凭借在数通领域的强大优势,与II-VI并列第一,连续两年成为全球光模块龙头。我们认为,未来中国光模块厂商优势稳固,在全球光模块产业链中的比重将继续提升。上游器件&芯片国产化将有望加速。依托光模块的地位,上游器件&芯片的国产化有望加速,国内主要光模块厂商扶持上游元器件的意愿明显。
我们认为光模块产业链下一步可关注两个国产化方向:1、中高端激光芯片。10GDFB国产化相当成熟,25GDFB国产化加速,50GDFB和100GEML仍有非常大的空间。2、TEC器件,光器件中价值量占比约13%,目前国产化程度低于光芯片以及陶瓷外壳,未来有望受益于国产化+数据中心/激光雷达不断增长的激光芯片温控需求。
领取专属 10元无门槛券
私享最新 技术干货