首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Nature正刊:曦智和Lightmatter的大规模光电混合计算加速卡

Nature正刊:曦智和Lightmatter的大规模光电混合计算加速卡

作者头像
光芯
发布于 2025-04-11 08:47:22
发布于 2025-04-11 08:47:22
7400
举报
文章被收录于专栏:光芯前沿光芯前沿
今天Nature正刊上线了两篇光计算的论文,分别来自曦智和Lightmatter这两个光计算+光互连的明星公司。其中,曦智的论文是介绍了他们2021年发布2.5D封装的PACE光计算处理器的详细信息(上个月已经推出了新的3D封装“天枢”计算卡产品,支持更大矩阵规模的计算),主要亮点在于实现了高速、低时延(3ns)的MAC计算。而Lightmatter则展示了他们长期研究的3D封装的光AI加速器,主要亮点在于首次实现能执行复杂AI模型的通用光子处理器,并实现了接近电芯片的精度和性能。

◆ 曦智的PACE光电混合计算卡

一、 背景及目标

矩阵乘加(MAC)在深度学习和神经网络中起关键作用,并占据了训练和推理所需的大部分计算资源,传统电子晶体管在MAC操作上能耗高、延迟大,光子计算利用光的并行特性,允许光信号在波导中传输时同时进行乘法和累加,大幅减少了数据流动节省了能耗。

在传统的数字MAC操作如TPU脉动阵列处理,点积操作被解耦并按矩阵元素逐个执行,随着计算矩阵规模的增大,时延会显著增加。而基于模拟计算的光MAC操作(oMAC),时延仅受光程长度限制,与矩阵规模成线性比例,时延增长因子仅为TPU的千分之一。这种对比凸显了大规模光子加速器在高吞吐量、低时延应用中的潜力。

基于高吞吐量和低时延优势,大规模光计算系统是实现启发式递归算法的理想平台。曦智瞄准开发大规模集成光子加速器,实现高速、低延迟MAC运算,验证其在求解计算密集型问题(如Ising模型)中的优势。

二、系统与实现

1. 大规模64×64矩阵规模的集成光电芯片

基于65nm工艺加工硅光计算芯片,采用非相干光架构,通过MZM和锗光电探测器(PD)完成光信号调制与转换,避免相干光的复杂校准。64×64规模的芯片需要集成超16,000个光子组件,包含1×64数据调制模块、64×64权重调制模块和接收阵列,外部激光通过光栅耦合器输入,经调制后完成矩阵-向量乘法,光电探测器将光信号转换为电流并累加。最终实现支持64×64矩阵-向量运算,完成光域MAC操作(oMAC)。

其中光纤耦合器在1310nm处的平均耦合损耗为1dB,向量调制器工作频率1 GHz(1位精度),权重调制器10 MHz(8位精度),调制效率0.69 mW/π相移;而PD的响应度1 A/W,一致性非常好,带宽29 GHz,噪声密度10 pA/√Hz。

通过标准化设计和工艺控制确保器件一致性,相比imec的130nm工艺加工的芯片,65nm改良工艺的芯片计算信噪比有12dB以上的提升。

2. 光电协同设计与封装

电芯片采用28nm CMOS工艺,集成逻辑、内存(SRAM)和控制功能,支持数据输入输出、阈值比较和迭代逻辑。通过DAC驱动调制器,跨阻放大器(TIA)放大电信号,8位比较器生成下一次迭代的二进制向量,SRAM存储中间状态和权重数据。

封装上由于10000多个引脚没法采用传统绑线扇出,这里使用的创新2.5D混合封装技术(倒装芯片键合),实现光子芯片(65nm硅光子技术)与电子芯片高密度互连,解决大规模信号路由问题。接口采用PCIe尺寸电路板集成PIC和EIC,通过SPI总线和以太网与主机通信,支持5000次迭代收敛求解。

3. 系统工作原理

1×64二进制向量通过EIC中的DAC和DRV输入PIC中的向量调制器阵列,实现光信号的亮暗状态,对应向量中的1和0状态。调制后的向量信号随后发送到64×64矩阵权重模块进行进一步调制,以实现等效的线性矩阵-向量乘法。向量和权重数据通过两组不同的光学MZM调制,以1 GHz频率运行,采用NRZ调制方案。

由于给定Ising问题的矩阵权重是固定的,权重调制器模块的设计与向量调制器阵列不同。为实现可重构权重单元,权重调制器优化为以10 MHz的较低频率运行,同时由相邻的DAC和DRV以更高的位分辨率驱动,相应设计的调制精度为8位。输出光信号在PD阵列转换合并,并通过TIAs放大。数千个集成Ge PD作为接收器阵列收集调制信号并实现光信号加法功能。最后,放大的信号在EIC域与8位比较器比较,转换回向量用于生成下一次迭代的递归向量。运行中,系统可实现约8.19 TOPS的吞吐量。能效测量为约4.21 TOPS/W(不含激光器)和2.38 TOPS/W(含激光器),显著优于同类系统

三、实验验证与成果

1. 精度与鲁棒性

为验证光子域的MAC性能,系统以位精度为指标进行表征。通过注入30,000个随机向量的实测点积误差分布,在无实时主动反馈调整权重的条件下,实现了平均0.06最低有效位(LSB)误差,标准差σ≈1.18 LSB。相应地,有效位数(ENOB)分布超过65%的概率达到8位,超过80%达到7位以上

在25 MHz数据速率下,系统平均实现接近7.61位精度,无需任何主动反馈控制。应用特定的初步校准以维持系统精度,系统还能耐受±5°C的温度波动,有效位仅下降1位。假如进行系统的主动反馈控制和监测,环境温度影响可减轻,位精度有望进一步提高。

2. Ising问题求解

验证组合优化问题(如最大割问题、图像记忆问题),通过迭代矩阵MAC运算和噪声注入收敛到基态分布。其中,为了完全实现算法中描述的启发式架构,PACE系统需要在电路中引入可控噪声以实现有效的位翻转,从而实现解的有效搜索。系统中存在多种可控噪声源,主要来自激光、DRV、TIA以及数字控制电路中设计的数字噪声。光芯片本身产生的噪声相当小。为了增加噪声驱动的位翻转,同时保持系统收敛的平衡,通过输入激光功率、接收器TIA增益配置和数字域的数字噪声注入主动调谐SNR。

实验实现了5 ns延时设置下收敛率超92.72%,5000次迭代总计算时间仅为2.7 μs,相比NVIDIA A10 GPU的798.1 μs提升两个数量级,充分展示了PACE系统在计算速度上的优势。

◆ Lightmatter的通用光AI计算卡

一、研究背景与目标 电子芯片受限于摩尔定律和Dennard缩放,难以满足AI模型复杂度指数级增长的需求,光计算凭借高带宽、低延迟和高能效成为重要替代方向,但存在精度不足、系统集成困难、与先进AI架构兼容性差等问题。 本工作首次报道了能够执行最先进神经网络的光子处理器,包括Transformer、卷积网络分类与分割以及强化学习算法。关键的是,该光子处理器在高级任务上实现了接近32位数字浮点系统的精度,即使不使用微调和量化感知训练等先进技术,也验证了其计算完整性。

该设计在单个封装中集成了6个芯片,利用垂直堆叠封装的光子张量核心(PTC)与控制芯片之间的高速互连,从而实现AI计算的高效率和可扩展性。这项工作聚焦于准确执行最先进的神经网络,能够以78W的电功率和1.6W的光功率实现每秒65.5万亿次自适应块浮点35(ABFP)16位运算。这项工作代表了光子处理领域实现的最高集成水平。

二、整体系统架构 1. 硬件架构:光子张量核心(PTC)与数字控制接口(DCI)

① PTC(光子张量核)

4个128×128 PTC,基于Global Foundries 90nm光子工艺,单芯片尺寸14.00×24.96 mm,集成128个10位向量单元和128×128个7位权重单元。调制区用硅波导,走线波导用SiN波导。

核心功能:执行矩阵-向量乘法(MVP),支持差分向量编码和权重单元动态调整,通过MZM和Ge PD实现光信号调制与转换。

② DCI(数字控制接口)

2个12nm CMOS工艺DCI芯片,单芯片尺寸31.4×25.0 mm,集成64个RISC-V核心、268MB统一缓冲区和高速ADC/DAC。 功能:管理数据输入输出、权重存储、校准算法执行,通过PCIe 4.0与主机通信。 2. 先进封装与集成

① 混合封装

6芯片集成(4 PTC + 2 DCI),通过有机中介层实现高密度互连,封装尺寸80×65 mm,支持高速数据传输(权重接口带宽1,024 GB/s)。

②光纤耦合

每PTC配备12通道光纤阵列Vgroove 耦合,实现外部激光输入与光信号输出,耦合效率1.56 dB。

3. 数字架构(Digital Architecture)

① RISC-V控制单元

每个DCI包含64个RISC-V核心(SiFive E76-MC),运行NuttX实时操作系统,负责校准、指令调度等控制任务,与主机通过PCIe Gen4 x16总线通信。 ② 统一缓冲区与数据接口

268MB统一缓冲区存储权重、激活值等数据,支持1,024 GB/s的权重传输带宽和256 GB/s的IO管道带宽,确保数据高效流转。统一缓冲区作为“数据中枢”,衔接主机内存、RISC-V核心本地存储和PTC寄存器,通过DMA引擎减少CPU干预,提升计算效率。 4. 神经计算引擎(NCE) ① SIMD并行处理

作为128路单指令多数据(SIMD)流处理器,支持bfloat16运算,包含16个矩阵寄存器(存储128×128向量)和16个向量寄存器(存储128元素向量),支持256 GB/s的并发数据流。 ② 混合精度计算

矩阵乘法在PTC中以自适应块浮点格式(ABFP)处理(权重7位、激活值10位),非线性函数通过分段线性查找表实现,累加和非线性操作使用bfloat16保持精度。 5 . 数据流与计算协同 ① 双缓冲权重设计

在MVP计算时实时更新权重,10ns的权重稳定时间与数字管道延迟匹配,确保数据流不间断。 ② 输出流水线优化

支持“读-修改-写”操作,将PTC输出累加至统一缓冲区,减少数据搬运开销,提升密集型张量运算效率。 通过异构集成和数据流优化,在当前的500MHz时钟下,处理器实现65.5万亿次ABFP16操作/秒(78W功耗,光芯片占1.6W),未来进行DCI时钟树优化后,在设计峰值2 GHz时钟下可达262万亿次/秒,算力密度显著高于传统电子加速器。

三、PTC架构

1. 设计 PTC是光子处理器的计算核心,集成了光子器件与模拟电路,专用于执行矩阵向量乘积(MVP)等张量运算,支持ResNet、BERT等复杂AI模型的底层计算需求。但设计时需平衡权重编程速率与向量输入速率,以支持数据依赖型AI任务(如Transformer的动态权重选择)。 2、核心组件与技术细节 ① 权重单元 将数字权重代码转换为模拟电流,对输入光信号(代表激活值)进行幅度调制,实现光电混合乘法运算。每个单元由差分光电探测器与7位分段式R-2R梯形DAC组成,支持±1范围内的权重编程,通过可编程斜率参数校准制造误差。积分非线性(INL)0.4 LSB,微分非线性(DNL)0.08 LSB,带宽1.5 GHz,可实现高速权重更新。 ② 向量编码器 基于10位伪差分电阻DAC驱动的MZI,通过热光相位调制及mPD反馈稳定MZI工作点,补偿温度漂移(精度±1 LSB)。更新速率为2 GHz,有效位数(ENOB)8.3,支持高速向量数据输入。采用了16路光子二叉树分配光信号,确保128个向量单元的功率均匀性,降低非线性失真。 ③ TIA 可编程增益TIA(典型增益2.8 kΩ,带宽0.8 GHz)将光电探测器输出的微弱电流转换为电压信号,支持1.5 Vpp差分输出摆幅,为后续ADC提供高信噪比输入。 ④ ADC 4通道时间交织、两级流水线逐次逼近ADC,11位精度,采样率2 GSPS,ENOB 9.8位,决定PTC的峰值张量运算速率。 3. 计算流程与信号传输 - 输入阶段:激活值通过向量编码器调制为光信号,经光子二叉树分配至128×128权重单元矩阵。 - 运算阶段:权重单元通过DAC对光信号加权,经电流求和网络完成矩阵向量乘积(MVP),输出模拟电流信号。 - 输出阶段:TIA将电流转为电压,ADC量化为11位数字信号,通过比例因子(ABFP格式)恢复为bfloat16精度,存入统一缓冲区。

四、实际AI负载下的性能测试

1. 图像分类与卷积模型 ①ResNet18性能

在CIFAR-10、Imagenette、ImageWoof等数据集上,精度分别达86.4%、79.3%、79.7%,为FP32精度的97.8%、93.3%、94.6%,其中MNIST达99.3%(FP32的99.8%),接近电子芯片水平。复杂数据集(如ImageWoof)精度略低,主要受限于硅波导非线性吸收导致的增益不足(实际增益1.86,设计目标4)。 ②SegNet语义分割

Oxford-IIIT Pet数据集精度63.7%(FP32的77.4%),因分割任务依赖像素级精确输出,对模拟噪声更敏感。 2. 自然语言处理(NLP) ①BERT-Tiny任务对比: 分类任务(IMDb情感分析):精度83.2%(FP32的96.5%),分类任务对输出误差不敏感,因决策边界内的输出视为同一结果。 回归任务(SQuAD):分数仅12.0%(FP32的27.5%),因回归依赖精确数值,对ADC量化噪声和模拟增益波动更敏感。 3. 强化学习(打游戏) 成功运行了Beamrider和吃豆人游戏,但光子处理器执行步骤数(有效决策次数)分别为6,430和1,825,低于FP32的30,304和3,329,主因是模拟计算噪声影响奖励预测精度。 4. 精度差异原因分析 ① 硬件非理想性 硅波导非线性吸收:向量编码器区域的硅波导导致增益损失,限制系统动态范围,复杂模型(如ResNet34)精度下降更明显。未来探索铌酸锂等新材料,提升调制速度与线性度,支持更高精度计算。 时钟频率限制:因数字控制接口(DCI)时钟树未优化,当前运行在500 MHz(峰值2 GHz但不稳定),影响数据吞吐量。 ② 任务特性敏感程度 分类任务:对精度容忍度高,因离散决策可掩盖部分噪声。 回归与强化学习:依赖连续数值精确性,噪声导致奖励计算或输出回归值偏差,性能下降显著。 5. 量化感知训练(QAT)和微调 训练阶段模拟硬件量化效应,使模型适应低精度表示,减少对FP32的依赖。ResNet18在ImageWoof数据集上,通过QAT将精度从64.4%提升至79.7%,证明模拟硬件可通过训练技术补偿噪声。 五、总结 这项工作代表了AI光子计算的重大进展,展示了一种在复杂人工智能模型上实现接近数字精度和性能的光子处理器。成功实现ResNet和BERT等模型,并演示了对强化学习算法(包括DeepMind Atari深度学习算法)的熟练处理。

尽管此处展示的光子处理器在计算能力上取得了显著进步,但该领域仍有若干挑战和机遇需要解决。未来通过使用先进的封装技术(如混合键合或μ bump)减少DCI和PTC之间的互连间距,进一步缩小PTC的面积。从而在单个reticle上扩展到512×512计算单元。PTC和DCI的3D堆叠可以实现远超此处所示四核实现的阵列。

光子计算的能效随张量核大小呈非线性扩展,更大的核心提供更高的效率。然而,实现这一优势需要设计新的神经网络架构,通过每次数据加载执行更多计算来最小化内存查找。这种转变可以大幅减少数据移动和内存访问的能耗,解决针对图形和TPU优化的人工智能系统中的主要瓶颈。光子处理器架构可以通过波分复用进行性能增强,为提高此处展示的光子处理器的计算密度提供了一条途径。

更高时钟速率所需的光功率受到硅光子器件(尤其是pn结和热光移相器)中非线性吸收的限制。未来设计必须通过器件工程创新、自适应功率控制或补充硅特性的混合材料来克服这一限制。比如铌酸锂、BTO和新兴二维系统等新材料可以降低光学非线性、提高调制速度并实现更紧凑的单元单元。这些创新有望增强计算能力、能效和可扩展性,为混合光电计算提供更多可能。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 光芯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
惠普实验室:大规模III-V/Si异质集成光子器件平台助力下一代光计算(一)
(原文链接:https://ieeexplore.ieee.org/document/10835188)
光芯
2025/04/08
2520
惠普实验室:大规模III-V/Si异质集成光子器件平台助力下一代光计算(一)
硅基光电子集成芯片(PIC)如何大规模生产?
 本文聚焦大规模硅基光电子集成芯片(SiPIC)的技术发展与挑战,指出其与集成电路发展趋势相似,但受光学衍射极限和材料限制,集成密度提升难度大。文中分析了设计制造全流程(如 MPW 模式、版图设计、工艺验证)、片上器件集成(IO 器件、波导、调制器等)及大规模生产挑战(电学 / 光学组件一致性、良率控制),并展望通过异质集成、先进封装、自动化设计工具等技术突破瓶颈,推动其在光通信、光子 AI、激光雷达等领域的规模化应用。
AIGC部落
2025/06/07
4220
硅基光电子集成芯片(PIC)如何大规模生产?
NUS & Marvell:基于FeFET+铌酸锂调制器的大规模光电混合存算架构
      在2025 Symposium on VLSI Technology and Circuits会议上,新加坡国立大学NUS、新加坡下一代混合微电子中心与Marvell发表了一项光电混合存内计算的研究。该研究提出一种双晶体管单调制器(2T1M)光电混合存算阵列,通过光学位元线(bitline)规避传统电位元线的IR损耗与电容负载问题:利用工作在亚阈值区域的铁电场效应晶体管(FeFET)存储器执行点积运算,经光信号相位调制实现结果求和,并采用低损耗铌酸锂(LNOI)调制器实现高效电光转换,通过共享MZI对光子波导BL进行读取以最大化列布局效率。该架构通过消除电BL的IR损耗,可支持高达3750kb的阵列规模,在大规模ALBERT Transformer模型上,该架构仿真上可实现93.3%的推理精度,与全GPU实现相当,显著超越传统CIM设计的48.3%。此外,通过消除大规模矩阵分解和重复外围电路的需求,能效提升超过3倍,达167 TOPS/W。
光芯
2025/06/20
1240
NUS & Marvell:基于FeFET+铌酸锂调制器的大规模光电混合存算架构
北大:利用AI算法加速的单波400 G PAM4纯硅慢光调制器
近日,以北京大学为第一单位的研究团队在《Nature Communications》报道了一款在1550nm波段实现单波400G PAM4传输的硅光调制器成果,文章题目是Exploring 400 Gbps/λ and beyond with AI-accelerated silicon photonic slow-light technology,第一作者为:Changhao Han, Qipeng Yang, Jun Qin, Yan Zhou,通讯作者是北大舒浩文研究员,王兴军教授以及UCSB的John E. Bowers教授。 一、研究背景 在全球数据量快速增长的当下,高速光互连被视为革新高性能计算中心的重要途径。硅光子学凭借CMOS兼容性,具备低成本、大规模晶圆级生产的潜力,成为重要的光电子集成技术平台。然而,作为核心电光转换器件,纯硅调制器传输速率增长缓慢,与以薄膜铌酸锂等为代表的异质集成路线相比存在差距,这让人们对纯硅调制器在超高速场景的可行性产生担忧。 硅基慢光调制器(Si-SLMs)作为一种可以实现带宽性能提升的方案受到研究人员的关注。另一方面,在光电子领域,人工神经网络(ANN)均衡器被提出以构建输入和输出空间之间具有非线性边界的复杂映射,适用于基于Si-SLMs的光传输,可减少非线性失真,消除工艺误差导致的Si-SLMs差异,为大规模传输系统的部署提供可能。
光芯
2025/07/20
2330
北大:利用AI算法加速的单波400 G PAM4纯硅慢光调制器
OFC 2025预热(二):短距光互连的明星初创公司们
今天来看看OFC 2025上那些明星初创公司都介绍了哪些有意思的进展。主要介绍的公司之前都有陆续写过,包括Ayar labs,、Lightmatter、Celestial AI、OpenLight、Xscape、Lucidean等。Lightmatter和Celestial AI的验证结果展示感觉是脚步最快、最惊艳的(也体现到他们的融资上),Ayar Labs在瞄准大规模制造优化耦合封装方案,而Xscape、Lucidean公司也有了不俗的进展,Nubis展示了新的应用场景,奇点光子开始露面,Openlight平台在持续演进,昨天Tower新闻稿提到的400G/lane技术看会不会在会场有介绍。
光芯
2025/04/08
6580
OFC 2025预热(二):短距光互连的明星初创公司们
大规模集成光子处理器及其应用:技术演进、挑战与展望
原文链接:https://www.nature.com/articles/s44310-025-00075-4,作者是Daniel Pérez-López和Luis Torrijos-Morá,来自iPronics公司)
光芯
2025/08/07
1680
大规模集成光子处理器及其应用:技术演进、挑战与展望
TSMC硅光平台COUPE的最新进展
TSMC在今年四月份展示了其硅光平台的路线图,在2025年实现适用于可插拔光模块的1.6T光引擎,在2026年利用CoWoS封装技术实现适用于CPO场景的6.4T光引擎, 后续进一步发展用于Optical IO场景下的12.8T光引擎,如下图所示。在今年的IEDM 2024大会上,TSMC交上了今年的成绩单,展示了更多的技术细节,信息量非常大,小豆芽这里整理汇总下相关的结果,方便大家参考。
光学小豆芽
2025/06/09
4590
TSMC硅光平台COUPE的最新进展
日本光电领域项目介绍:基于异质集成技术的高性能分布式算力网络
日本光电子技术研究联盟(PETRA)在2021-2026年开展名为“基于异质集成技术的高效率、高速率分布式全力网络”的研究项目,项目负责人是东京工业大学的西山伸彦教授。PETRA的会员包括了NTT、住友、三菱、古河、富士通、AIO Core、NEC等单位。文末有项目介绍视频,讲解的还挺生动的。
光芯
2025/04/08
1930
日本光电领域项目介绍:基于异质集成技术的高性能分布式算力网络
光子存内计算硬件架构:从相变材料到非互易磁光材料的可扩展之路
      本报告是匹兹堡大学Nathan Youngblood助理教授团队,针对光子存算一体架构的可扩展性难题,基于非易失性光学材料展开的前沿技术分享,题目为Scalable Architectures for Photonic Compute-In-Memory Using Nonvolatile Optical Materials
光芯
2025/06/11
2000
光子存内计算硬件架构:从相变材料到非互易磁光材料的可扩展之路
惠普实验室:大规模III-V/Si异质集成光子器件平台助力下一代光计算(二)
在人工智能和机器学习快速发展的背景下,构建高效的光子集成电路对于提升计算性能至关重要。传统的电子计算架构在处理大规模 AI 任务时面临着诸多挑战,如能耗高、计算速度受限等,而光子集成电路凭借其独特的优势成为解决这些问题的关键研究方向。 (一)张量化光神经网络(TONN) TONN 的出现源于对 AI 计算效率的追求,模型压缩技术中的修剪方法为其提供了灵感。在传统的光神经网络中,随着模型规模的扩大,计算资源的消耗呈指数级增长,严重限制了其应用范围。
光芯
2025/04/08
1490
惠普实验室:大规模III-V/Si异质集成光子器件平台助力下一代光计算(二)
IEDM 2024:台积电的硅光(高性能工艺平台、CPO、光计算) 进展(一)
台积电在IEDM 2024会议上有好多论文,其中硅光的也有好几篇,看了之后还是很震撼的。
光芯
2025/04/08
6360
IEDM 2024:台积电的硅光(高性能工艺平台、CPO、光计算) 进展(一)
分段电极设计TFLN调制器实现去DAC的直接数字-光转换技术突破
数字-光转换器(DOCs)可直接将数字电信号转换为模拟光信号,在电光调制系统中省去数模转换器(DAC),是实现高能效光通信的核心技术。针对传统DOCs中非线性效应导致的符号错误率(SER)升高、光功率效率下降及带宽受限问题,本文提出分段电极长度设计(ESL)技术,通过优化调制电极分段结构,在积分非线性(INL)、微分非线性(DNL)、符号错误率及光功率利用率等关键指标上实现突破性提升。
光芯
2025/07/02
810
分段电极设计TFLN调制器实现去DAC的直接数字-光转换技术突破
DesignCon 2025:字节跳动的1.6T DR8硅光LPO模块设计和性能评估
DesignCon2025会议上,字节和羲禾一起分表了基于硅光子调制器的单波224Gbps的1.6Tbps LPO 系统的设计与性能评估工作。 一、800Gbps LPO 系统的性能验证 在正式踏入 1.6Tbps LPO 系统的探索之旅前,研究人员先对 800Gbps LPO 系统进行了广泛测试。结果显示,基于硅光子调制器方案的 LPO 性能表现卓越,并已在小批量生产中得到验证。具体而言,研究人员将来自三家不同模块制造商的 64 个 800Gbps LPO 模块样本随机插入交换机的 64 个端口中,进行端到端的比特误码率(BER)测试。测试数据表明,这三家制造商的 64 个模块在交换机上的 BER 均能达到 1E-9 的标准。
光芯
2025/04/08
6270
DesignCon 2025:字节跳动的1.6T DR8硅光LPO模块设计和性能评估
下一代硅光路线图
几位硅光大佬最近合作撰写了一篇文章,贴在了arXiv上。文章整理总结了当前硅光技术的技术难点与发展趋势,并展望了下一代硅光技术,高屋建瓴,非常值得一读, 原文链接https://arxiv.org/abs/2305.15820。站在大佬们的肩膀上,小豆芽这里整理下相关论点以及自己的一些思考,供大家参考。
光学小豆芽
2023/09/02
2.9K0
下一代硅光路线图
OFC 2025 PDP:单波400G的III-V(NTT/华为)、铌酸锂(Hyperlight/住友)及硅光(Aloe)
OFC 2025 PDP又增添了好几个单波400G的验证结果,其中有华为的540 Gbps EML传光纤30km的报道(OFC 2025 PDP:华为的110 GHz带宽、540 Gbps EML+30km传纤实验)。除此之外,Hyperlight用Ciena的3nm 448Gbps Serdes完成了8×400G的3.2T 2km DR8和FR8实验;NTT也演示了8通道的无制冷高带宽的InP MZM的3.2T 500m传输;住友基于前两年做的集成电光均衡器的高带宽铌酸锂(封装后带宽>100GHz)演示了单波400Gbps 传输(不过是C波段的),PDP之外Coherent是发布了新闻稿会在OFC现场演示400 Gbps的差分EML。
光芯
2025/04/08
9780
OFC 2025 PDP:单波400G的III-V(NTT/华为)、铌酸锂(Hyperlight/住友)及硅光(Aloe)
重磅!诺基亚完成欧洲800G光通信突破,引领光通信技术浪潮
诺基亚携手Zayo Europe完成欧洲首例800G超长距传输,创下千公里级光通信新纪录。
通信行业搬砖工
2025/04/13
2600
重磅!诺基亚完成欧洲800G光通信突破,引领光通信技术浪潮
集成光子芯片的脑机接口可行性分析
BCI是基于计算机的系统,可以在活体大脑和外部机器之间进行单向或双向通信。BCI读取大脑信号并将其转换为由机器执行的任务命令。在闭环中,机器可以用适当的信号刺激大脑。
脑机接口社区
2023/02/13
8590
IEDM 2024:台积电的硅光(高性能工艺平台、CPO、光计算) 进展(三)
生成式人工智能(GAI)的普及使得基于光子学的计算成为一种有吸引力的方法,因为它有可能满足对更高能效性能(EEP)的需求。然而,先前用于乘累加(MAC)操作的光学解决方案要么侧重于模拟架构,其受精度和数据转换的限制,要么侧重于可扩展性有限的自由空间光学架构。本文报道了世界上首个用于GAI训练的片上大规模数字光计算系统(DOC)。
光芯
2025/04/08
2240
IEDM 2024:台积电的硅光(高性能工艺平台、CPO、光计算) 进展(三)
Neurophos:基于硅光收发+超表面的光处理器OPU实现速度+功耗百倍碾压GPU🤓
Neurophos是一家美国的开发光计算处理器(Optical Processing Unit, OPU)初创公司,去年年底拿了720万美金的种子轮融资,主要是通过超表面空间光调制器+硅光相干收发技术实现超高速度、超低能效的模拟存内计算,相比当前的GPU在速度和能效上都有100倍的提升。产品预计2027年推出,上半年说是今年夏天会推出测试样品,不过目前还没看到正式报道。加速计算、硅光、超表面、先进封装要素齐全。抛开事实不谈,100倍的速度和能效提升以及精美的视频和概念图,确实很吸人眼球。
光芯
2025/04/08
1980
Neurophos:基于硅光收发+超表面的光处理器OPU实现速度+功耗百倍碾压GPU🤓
Intel实现3D混合集成的微环光发射器
这篇笔记主要介绍下Intel在微环光发射器的最新进展,系统中集成了激光器、微环调制器以及基于28nm工艺的driver,实现了112Gb/s的PAM4信号调制,能耗为7.4pJ/bit。
光学小豆芽
2020/10/10
2.1K0
Intel实现3D混合集成的微环光发射器
推荐阅读
惠普实验室:大规模III-V/Si异质集成光子器件平台助力下一代光计算(一)
2520
硅基光电子集成芯片(PIC)如何大规模生产?
4220
NUS & Marvell:基于FeFET+铌酸锂调制器的大规模光电混合存算架构
1240
北大:利用AI算法加速的单波400 G PAM4纯硅慢光调制器
2330
OFC 2025预热(二):短距光互连的明星初创公司们
6580
大规模集成光子处理器及其应用:技术演进、挑战与展望
1680
TSMC硅光平台COUPE的最新进展
4590
日本光电领域项目介绍:基于异质集成技术的高性能分布式算力网络
1930
光子存内计算硬件架构:从相变材料到非互易磁光材料的可扩展之路
2000
惠普实验室:大规模III-V/Si异质集成光子器件平台助力下一代光计算(二)
1490
IEDM 2024:台积电的硅光(高性能工艺平台、CPO、光计算) 进展(一)
6360
分段电极设计TFLN调制器实现去DAC的直接数字-光转换技术突破
810
DesignCon 2025:字节跳动的1.6T DR8硅光LPO模块设计和性能评估
6270
下一代硅光路线图
2.9K0
OFC 2025 PDP:单波400G的III-V(NTT/华为)、铌酸锂(Hyperlight/住友)及硅光(Aloe)
9780
重磅!诺基亚完成欧洲800G光通信突破,引领光通信技术浪潮
2600
集成光子芯片的脑机接口可行性分析
8590
IEDM 2024:台积电的硅光(高性能工艺平台、CPO、光计算) 进展(三)
2240
Neurophos:基于硅光收发+超表面的光处理器OPU实现速度+功耗百倍碾压GPU🤓
1980
Intel实现3D混合集成的微环光发射器
2.1K0
相关推荐
惠普实验室:大规模III-V/Si异质集成光子器件平台助力下一代光计算(一)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档