Microsoft英国剑桥研究院在Nature正刊上发表了一项重磅研究,提出了一种高效模拟光学计算机(AOC),通过融合模拟电子与三维(3D)光学技术,在单一平台上实现AI推理与组合优化的加速。AOC基于快速定点搜索机制,无需数模转换且提升噪声鲁棒性,可运行具有递归推理能力的计算密集型神经模型,并实现先进梯度下降法用于优化任务。
研究团队通过图像分类、非线性回归、医学图像重建、金融交易结算四大案例验证了其有效性,且基于可扩展消费级技术(MicroLED、SLM、CMOS探测器与模拟电子),为高速低耗计算提供新路径,能效预计达500 TOPS/W,较主流GPU提升超100倍。
原文链接:https://www.nature.com/articles/s41586-025-09430-z
之前微软在其官网上做过宣传和介绍,当时也写过一篇推送来着:
◆ 核心技术架构
① 定点抽象:数学基础与硬件映射
AOC的核心是通过迭代定点搜索统一AI推理与组合优化,其数学抽象基于离散迭代更新规则(连续运行时无时钟约束):
s(t+1)=α(t)st+βW f(st)+γ(st-s(t-1))+b
其中,st为连续实值状态向量,对应硬件中“光-电双域信号”——光学域通过microLED光强编码,电学域通过光电探测器电压表征;α(t)为退火调度(控制状态幅度衰减,类似残差连接),β为矩阵-向量乘积缩放因子,γ引入动量项(对应二阶微分动力学,突破Hopfield网络等一阶模型局限),W为权重矩阵(存储神经网络权重或优化问题系数),f(·)为元素级非线性函数(AI推理用tanh,优化任务中二进制变量用符号函数、连续变量用线性函数),b为偏置向量。
在硬件映射中,该迭代通过“光学矩阵-向量乘法+模拟电子非线性/控制”循环实现,单次迭代耗时约20ns,多次迭代后收敛至定点(信号幅度稳定),最终仅需一次数字读取,最大化模拟计算占比。
② 光学子系统:关键组件与工作原理
光学子系统负责高效实现矩阵-向量乘法,核心组件包括microLED阵列、偏振分束器(PBS)、空间光调制器(SLM)、4F成像系统、光电探测器阵列,其设计突破传统平面光学局限,通过3D光学实现并行化与可扩展性。
(1)核心组件与参数
- microLED阵列:作为光学信号源,编码状态向量st。采用GaN晶圆制备,16个独立寻址单元(当前硬件规模),单个microLED直径50μm、间距75μm,发射光谱中心520nm(半高宽35nm),其-3dB带宽随驱动电流提升:5mA时60MHz、20mA时200MHz、40mA时350MHz。零值对应偏置电流,正值通过增大电流、负值通过减小电流实现,光强与电流呈非线性关系,通过25Ω串联电阻补偿。
- 偏振分束器(PBS):实现“双光路分离”——将microLED的非偏振光分为水平/垂直偏振,分别对应正/负权重乘法,避免单SLM处理正负值的精度损失,同时提升光利用率。
- 空间光调制器(SLM):存储权重矩阵W,采用反射式平行排列向列相液晶器件,像素间距8.5μm、填充因子92%,通过8位查找表(LUT)线性化灰度-光强响应。正权重加载于SLM1(水平偏振光路),负权重加载于SLM2(垂直偏振光路),每个矩阵元素对应12(高)×10(宽)个SLM像素。
- 4F成像系统:实现“扇出-调制-扇入”功能,核心为球面光学元件(避免传统斯坦福方法中圆柱透镜的成本与精度问题)。
- 扇出阶段:通过高数值孔径物镜(Thorlabs TL10X-2P,NA=0.5、放大10倍)收集microLED光,结合消色差双胶合透镜组(焦距77mm)与圆柱透镜,将每个microLED成像为SLM上的“水平长线”(仅x方向失焦),确保单个microLED光覆盖SLM一行像素(实现行级乘法)。
- 扇入阶段:通过另一组消色差双胶合透镜(Thorlabs AC508–150-A-ML与AC508–080-A-ML)将SLM列像素光汇聚至单个光电探测器,实现列级求和(完成矩阵-向量乘法的“累加”步骤)。
关键优势:4F系统使不同光路的光程差平衡至“光学系统像差水平”(通常为几个波长),大幅降低传播时延差异对计算速度与精度的影响。
- 光电探测器阵列:将光学信号转换为电学信号,采用硅基探测器,单个活性区域3.6×0.075mm²、间距0.125mm,工作带宽490MHz@-10V(600nm波长),每路信号经跨阻放大器(Analog Devices MAX4066,25kΩ增益、输入参考噪声3pA/√Hz)放大后传入模拟电子子系统。
(2)工作流程
1. microLED阵列根据状态向量st输出对应光强,经PBS分为两路偏振光;
2. 两路光分别入射至SLM1(正权重)与SLM2(负权重),完成“光强×权重”的元素级乘法;
3. 4F系统将SLM列像素光汇聚至光电探测器阵列,实现列求和,得到光学矩阵-向量乘法结果;
4. 光电探测器将光信号转换为电压信号,传入模拟电子子系统进行后续处理。
③ 模拟电子子系统:非线性与控制功能
模拟电子子系统负责实现定点迭代中的非线性、退火、动量等功能,核心电路包括可变增益放大器(VGA)、差分放大器、tanh非线性模块、开关与缓冲器,采用商用SMT元件(规模化后计划替换为模拟ASIC以缩小体积、降低功耗)。
- 非线性模块:通过双极差分对实现tanh近似,AI推理中输入域无硬件限制(依赖训练权重确保信号精度),优化任务中通过调整跨阻放大器增益,使连续变量对应tanh线性区、二进制变量对应饱和区,实现变量类型区分。
- 退火与动量控制:退火调度α(t)通过外部波形发生器生成线性衰减信号,经VGA注入电路;动量项通过“VGA+电容微分电路”实现,反馈前一时刻状态与当前状态的差值,增强局部极小值逃逸能力。
- 信号调节:差分放大器实现正/负光路信号的减法(得到带符号电压),VGA用于平衡通道增益(通过93组参考矩阵校准,使矩阵-向量乘法的平均MSE达5.5×10⁻³),电子开关(ADG659)控制反馈环路的通断,实现迭代启动与重置。
◆ 核心创新点
① 单平台统一AI推理与组合优化
现有非常规计算系统多仅支持单一任务(如光子芯片侧重AI、量子退火器侧重优化),AOC通过定点抽象实现双任务统一:
- AI推理场景:针对深度平衡网络(DEQ)等迭代模型,定点对应网络收敛后的隐藏层状态,无需存储中间激活(通过隐函数定理计算梯度,降低训练内存开销),支持递归推理与动态深度调整,在序列建模与生成扩散模型中潜力显著;
- 组合优化场景:针对二次无约束混合优化(QUMO)问题,定点对应目标函数极小值,通过梯度下降+退火+动量加速收敛,可直接处理二进制/连续变量与线性约束,无需问题分解。
② 全模拟架构消除数模转换开销
传统混合架构(如“光学乘法+数字非线性”)需频繁进行模拟-数字(ADC)与数字-模拟(DAC)转换,能耗占比超50%。AOC实现“光-电全模拟循环”:
- 矩阵-向量乘法(光学)、非线性/退火/动量(模拟电子)均在模拟域完成,仅在收敛后进行一次ADC读取,避免转换能耗与时延;
- 模拟电子子系统采用“存内计算”设计,信号在模拟域保持至收敛,无数据搬运开销,突破冯·诺依曼瓶颈。
根据测算,该架构可减少99%以上的数模转换能耗,是AOC能效达500 TOPS/W的核心原因之一。
③ QUMO formulation突破QUBO局限
现有优化硬件(如D-Wave量子退火器、富士通数字退火器)多基于二次无约束二进制优化(QUBO),处理实际约束问题时存在显著映射开销:
- QUBO需将连续变量通过二进制/Unary编码转换为10-100个二进制变量,且线性不等式约束需引入大量惩罚项;
- AOC提出的QUMO(二次无约束混合优化)支持二进制与连续变量共存,处理线性不等式约束仅需1个连续松弛变量,映射效率提升1-2个数量级。
例如,金融交易结算问题中,QUMO可直接建模30项约束(转换为8变量实例),而QUBO需扩展至80-800变量;医学图像重建中,QUMO可联合优化“像素值(连续)+稀疏性控制(二进制)”,无需变量分解。
④ 3D光学与模拟电子的协同设计
AOC突破传统平面光学的规模限制,通过3D光学与模拟电子的协同实现可扩展性:
- 3D光学优势:利用球面光学元件与4F系统,在三维空间实现光信号的高效扇入/扇出,避免平面光学的“布线-计算面积竞争”;microLED与光电探测器可生长于硅基板,支持与电子背板的紧密集成,单个模块(400万权重)体积可缩小至4cm级(依赖微透镜与波导技术)。
- 非相干光源设计:采用microLED(非相干光源),光程匹配仅需满足系统带宽(GHz级),而非相干光源的波长精度(数百THz级),制造公差大幅放宽,规模化生产难度降低。
- 模拟电子灵活性:非线性、退火等功能通过模拟电路实现,可快速迭代功能(如未来计划加入归一化、softmax),无需修改光学硬件,扩展硬件支持的计算原语。
⑤ 定点迭代带来的噪声鲁棒性
模拟硬件的噪声(如microLED光强波动、SLM调制误差、电子噪声)是性能瓶颈,AOC通过定点迭代的“吸引子特性”抵消噪声影响:
- 迭代过程中,定点对信号轨迹具有“牵引作用”,每次迭代均使信号向定点靠近,抵消随机噪声;
- 实验验证显示,在SNR=10-15dB(模拟硬件典型噪声水平)下,AOC对MNIST分类的准确率下降不足1%,而同等噪声下深度前馈网络准确率下降超5%;回归任务中,通过11次重复运行平均,可将高斯曲线拟合的MSE从3.75×10⁻³进一步降低至2×10⁻³,且曲线平滑度显著提升。
◆ 实验验证与性能表现
① AI推理任务:分类与回归
(1)图像分类
- 数据集:MNIST(手写数字)、FashionMNIST(时尚单品),输入图像缩放至[-1,1]并展平为784维向量;
- 模型架构:输入投影层(784×16/4096)+AOC平衡模型(256/4096权重)+输出投影层(16/160×10),4096权重模型通过“16个256权重模型时间复用”实现;
- 性能:256权重AOC硬件在MNIST准确率达95.02%、FashionMNIST达86.04%,与数字孪生(AOC-DT)结果(MNIST 94.97%、FashionMNIST 86.20%)高度一致;4096权重模型通过时间复用,准确率提升至MNIST 97.67%、FashionMNIST 89.01%,优于同参数前馈模型(MNIST 96.53%、FashionMNIST 87.43%)。
(2)非线性回归
- 任务:拟合高斯曲线(f(x)=2e^{-x²/(2σ²)}-1,σ=0.25)与正弦曲线(f(x)=√|x| × sin(3πx²)),输入x∈[-1,1];
- 性能:AOC硬件对高斯曲线的MSE为3.75×10⁻³,正弦曲线为1.21×10⁻²,与AOC-DT结果(高斯3.83×10⁻³、正弦7.05×10⁻³)差异小于5%;通过11次重复运行平均,正弦曲线拟合的波动范围从±0.05缩小至±0.01,曲线平滑度满足实际应用需求。
② 组合优化任务:工业场景与基准测试
(1)医学图像重建
- 任务:基于压缩感知的Shepp-Logan体模(32×32像素)与FastMRI脑部图像(320×320像素)重建,欠采样率37.5%(体模)、4-8倍(脑部图像),目标函数含数据保真项与稀疏性约束(二进制变量控制像素非零性);
- 性能:体模重建中,AOC通过块坐标下降(BCD)将64变量QUMO分解为8变量子问题,迭代30-40步后MSE达0.008,远优于仅数据保真项的0.079;脑部图像重建(AOC-DT模拟)中,20万变量QUMO实例的MSE低于0.07,满足临床诊断精度。
(2)金融交易结算
- 任务:46笔交易(37个金融机构)的结算优化,目标最大化结算金额,约束转化为QUMO的连续松弛变量,预处理后为41变量实例;
- 性能:AOC通过7步BCD迭代找到全局最优解,结算成功率100%,而量子硬件在相同8变量简化实例中成功率仅40-60%;在真实场景衍生的8变量实例中,AOC保持100%成功率,且单次求解耗时30-40μs。
(3)基准测试
- QPLIB基准:针对含线性不等式约束的 hardest 实例(需Gurobi超60秒求解),AOC-DT求解速度提升3个数量级,其中实例3584(500二进制+10000连续变量)耗时40秒,而Gurobi需54000秒匹配相同解;
- QUBO基准:在Wishart、RCDP、Tile3D等基准中,AOC-DT的目标函数改进率超90%,在G-Set基准(20000变量)中与Gurobi性能相当,且发现2个QPLIB实例(3693、3850)的新最优解。
◆ 大规模模拟计算机设计与未来展望
① 规模化架构
AOC采用“模块化3D mesh”设计实现规模扩展:
- 单个模块:支持400万权重(2000变量),含microLED阵列、SLM、光电探测器与模拟电子,体积约4cm(依赖微透镜与激光写入波导技术);
- 系统集成:通过3D mesh连接50-1000个模块,支持正负权重分离处理(模块数量减半可通过单SLM双偏振实现),总权重可达0.1-2亿,适配10万像素MRI重建与10亿参数量AI模型(通过专家混合架构分解);
- 信号同步:模块间时延差异控制在单次迭代时间(20ns)内,无需模拟时钟,通过物理布局优化(子模块就近排列)降低传播时延。
② 技术挑战与路径
- 光学小型化:当前4U机架系统需通过微透镜阵列与3D打印微光学(如双光子聚合技术)缩小至厘米级,衍射极限可通过微透镜NA优化(目标0.5以上)缓解;
- 模拟ASIC开发:现有离散电子元件功耗占比超60%,计划开发专用模拟ASIC,集成跨阻放大器、VGA与非线性模块,功耗降低至当前1/10;
- 软件栈优化:需开发针对AOC的定点模型训练框架,支持自动权重量化(9位精度)与问题分解,当前AOC-DT已实现PyTorch集成,未来计划支持TensorFlow生态。
◆ 总结
AOC通过“定点抽象+3D光学+模拟电子”的协同设计,首次实现单一模拟平台对AI推理与组合优化的高效支持,其核心优势在于消除数模转换开销、突破QUBO局限、提升噪声鲁棒性。当前硬件已验证小规模任务的有效性,规模化设计基于成熟消费级技术(microLED、SLM、CMOS),能效预计达500 TOPS/W,较GPU提升超100倍。未来通过光学小型化与模拟ASIC迭代,AOC有望成为AI与优化领域的低耗高速计算平台,推动可持续计算发展。