Cornell大学的三位大佬Keren Bergman,Michal Lipson, Alexander Gaeta最近的公司Xscape photonics最近拿了个$44M的A轮融资,投资方有Nvidia和Cisco等。主要产品是基于双微环光频梳的波长数量可配置的多波长光源,用于数据中心和高性能计算的高速通信。主要想做的系统大概就是底下这个图所示,也是利用微环的波分特性,引进波长维度实现高带宽密度的光互联。今天先来看看Keren Bergman 2023年发表的关于高带宽密度、极低功耗的光互联芯片的工作。
◆ 背景:
计算速度比通信速度快1000倍,通信能耗比计算能耗大两个数量级。
◆ 传统方案:
传统可插拔模块光电芯片分离,带宽密度小;GF和HHI走到光电单片集成路线,光电使用相同的节点(比如GF的45nm工艺),电器件性能不是最佳,对光来说可能又过剩了。
◆ 解决方案:
将高性能的电芯片和集成光芯片,通过倒装焊3D集成的方式,实现高密度的互联芯片实现。
◆ 难点:
在之前报道的3D集成硅光互联的工作中,虽然也实现了<200 fJ/bit的能耗,但EIC和PIC的bonding间距要么超过了器件本身的大小,没有实现高密度bonding,(嫌它稀疏);要么是用了没有大规模量产的混合bonding方式(嫌它不通用)。而且目前展示的3D集成硅光互联最大的通道数也只是8通道(嫌它通道少)。
◆ 本工作的主要亮点:
✓高密度3D bonding技术
通过使用铜柱凸点(bumps)来实现光子芯片和电子芯片之间的高密度倒装焊。这种键合技术使得芯片间的连接间距非常小,仅为15微米,凸点直径为10微米,间距为25微米,总共有2034个bump。
首先使用电镀工艺在光子芯片上形成带有铜基座的凸点,并在其上覆盖一层锡。然后,通过加热和压力的作用下将铜锡凸点与镀镍的电子芯片键合,将芯片紧密地连接在一起。该工艺平衡了这种紧密间距的两种潜在失效模式:过多的锡在倒装焊的过程中流动并导致相邻凸点电气短路,过少的锡不足导致键合力不足。仿真建模和测量显示每对焊点(用于信号和地)的电容为10fF。
这样的设计显著减小了光子芯片与电子芯片之间的连接距离,从而降低了信号传输的损耗和延迟,提高了整体系统的性能。
(这里其实我有一个疑问,不知道有没有大佬可以解释一下。像红外传感器ccd应该也是需要做铟柱的flip chip bonding,现在的ccd也都能到几十万或者百万像素了,每个像素应该都需要做电信号的引出。CCD的这种FCB跟这个文章里的技术不知道是否一样?技术难度高吗?)
✓ 多通道系统的展示
80通道的基于微盘调制器的发射机+80通道基于微环demux和pd的接收机,调制速率10Gbit/s,4个波长,芯片面积只有0.32 mm²,其中发射机面积只有0.15mm²,所以是800Gbps/0.15mm² =5.3 Tbps/mm²。
✓ 低能耗
80通道发射机的能耗为50fJ/bit@1V驱压。这主要得益于他们所独有的垂直pn结微盘调制器。虽然都是谐振型调制器,但微盘不同于其他家水平结构的微环调制器在于垂直pn结与光场谐振模式的重叠更高,所以提升了效率,降低了驱压。在1.5V驱压下,10G NRZ调制的消光比可以达到4dB,插损2.8dB,能效为110 fJ/bit。
接收端在-24.85 dBm平均功率下接收10 Gb/s信号时能效为70 fJ/bit,误码率为4×10^-10。
◆ 一些零碎的细节补充:
① 关于工艺:
电芯片是TSMC的28nm CMOS工艺,光芯片是AIM Photonics的12寸硅光定制化流片。这篇给了63个reticle上的微盘调制器的谐振谱,谐振中心波长标准差是0.69nm。
看了一下AIM Photonics的介绍,他们以前是用193nm光刻做的硅光工艺,最小线宽是100nm。不知道这个文章报道的是不是节点升级了,反正这个微盘的一致性相当好了。大家以前老是诟病微环波长做不准,但随着工艺升级,现在也越来越准了。GF的光电集成平台是45nm,Intel据说有32nm的硅光工艺。硅光互联的需求量要是能撑起12寸产线,用上先进工艺之后,谐振型器件也还是未来可期。
另外明年AIM Photonics会开放升级版的低损耗硅光的MPW流片,主要解决了高质量氮化硅的集成,波导损耗和器件损耗都好低,PSR官网写着是0.015dB的插损。
② 能效的优化、Xscape和光频梳
这篇文章的端面耦合是用的氮化硅taper的结构,没做掏空,插损是3dB/facet比较大。说是优化后加掏空结构可以达到1.1dB/facet的水平,但掏空工艺可就不好搞flip chip bonding了。
微盘调制器在实际工作过程中需要heater调波长,这部分功耗文章里边没算。根据流片结果的谐振波长偏移量,大概估计了一个71 fJ/bit(单σ,best case)和274fJ/bit(3σ,worst case)的能效。
这个工作用的是4个dfb来作为光源,前面的功耗只算了片上的,实际上文章里的dfb阵列能效会达到175 fJ/bit,通过优化耦合结构,可以降低到47fJ/bit。所以片上+热调+光源,总的实际能效应该就来到569 fJ/bit(worst case)。
未来他们想用光频梳光源来替代,也就是Xscape的光源。目前报道的最好的双环暗孤子光频梳效率可以达到80%,按这个效率的话总的转换效率会比DFB更高,有望达到30 fJ/bit。光频梳用暗孤子的方式确实是可以达到高效率,但稳定性不知道能否解决,像如此高密度互联的系统,对稳定性或者重路由时间,要求是不是也会挺高的?
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有