编辑 | 绿萝
一些现代图像生成器依靠扩散原理来创建图像。基于带电粒子分布背后的过程的替代方案可能会产生更好的结果。
人工智能工具,尤其是神经网络,对物理学家们很有帮助。多年来,这项技术帮助研究人员在加速器实验中重建粒子轨迹,寻找新粒子的证据,并探测引力波和系外行星。虽然 AI 工具显然可以为物理学家做很多事情,但根据麻省理工学院物理学家 Max Tegmark 的说法,现在的问题是:「我们能回馈任何东西吗?」
Tegmark 相信他的物理学家同行可以为 AI 科学做出重大贡献,他已将此作为他的首要研究重点。他说,物理学家可以帮助推进 AI 技术的一种方法是用易于理解的物理过程方程取代神经网络的「黑匣子」算法,其工作原理在很大程度上是难以理解的。
这个想法并不新鲜。基于扩散的生成 AI 模型(例如,将牛奶倒入一杯咖啡中均匀扩散的过程)首次出现于 2015 年,自那时以来,它们生成的图像质量已显著提高。该技术为 DALL·E 2 和 Midjourney 等流行的图像制作软件提供支持。现在,Tegmark 和他的同事正在研究其他受物理启发的生成模型是否可以与基于扩散的模型一样工作,甚至更好。
去年年底,Tegmark 的团队推出了一种很有前景的图像生成新方法,称为泊松流生成模型 (Poisson Flow Generative Models,PFGM)。其中,数据由带电粒子表示,它们结合起来产生电场,其属性取决于任何给定时刻电荷的分布。之所以称为泊松流模型,是因为电荷的运动受泊松方程控制,该方程源自两个电荷之间的静电力与它们之间的距离的平方成反比变化的原理(类似于牛顿引力的公式) 。
PFGM 相关论文链接:https://arxiv.org/abs/2209.11178
该物理过程是 PFGM 的核心。「我们的模型几乎可以完全用空间中每个点的电场强度和方向来表征,」麻省理工学院的研究生、该论文的合著者 Yilun Xu 说。「神经网络在训练过程中学到的是如何估计电场。」 通过这样做,它可以学习创建图像,因为该模型中的图像可以通过电场来简洁地描述。
Yilun Xu 过利用带电粒子产生电场的物理过程,帮助建立了一种神经网络创建图像的新方法。
PFGM 可以创建与基于扩散的方法产生的图像质量相同的图像,并且速度快 10 到 20 倍。塔夫茨大学计算机科学家Hananel Hazan 表示:「它以我们以前从未见过的方式利用物理结构,即电场。这为利用其他物理现象来改善我们的神经网络打开了大门。」
除了基于从物理学引入的方程之外,扩散模型和泊松流模型还有很多共同点。在训练过程中,为图像生成而设计的扩散模型通常从一张图片(比如说一只狗)开始,然后添加视觉噪声,以随机方式改变每个像素,直到其特征被彻底掩盖(尽管没有完全消除)。然后,该模型尝试逆转该过程并生成一只接近原始狗的狗。经过训练,该模型可以从看似空白的画布开始成功地创建狗和其他图像。
泊松流模型的运行方式大致相同。在训练过程中,有一个正向过程,其中涉及逐步向曾经清晰的图像添加噪声,以及一个反向过程,其中模型尝试逐步消除噪声,直到初始版本大部分恢复。与基于扩散的生成一样,系统最终学会制作在训练中从未见过的图像。
但泊松模型的物理原理完全不同。扩散由热力学驱动,而泊松流由静电力驱动。后者使用可以创建非常复杂的电场的电荷排列来表示详细图像。然而,随着时间的推移,这个场会使电荷分布得更加均匀——就像牛奶自然地分散在一杯咖啡中一样。结果是场本身变得更简单、更均匀。但这个充满噪音的均匀场并不是一块完整的白板;它仍然包含可以轻松组合图像的信息种子。
2023 年初,该团队升级了泊松模型,将其扩展到整个模型系列。增强版本 PFGM++ 包含一个新参数 D,它允许研究人员调整系统的维度。这可以产生很大的差异:在熟悉的三维空间中,电荷产生的电场强度与距该电荷的距离的平方成反比。但在四个维度中,场强遵循立方反比定律。对于空间的每个维度和 D 的每个值,这种关系都有些不同。
PFGM++ 相关论文链接:https://arxiv.org/abs/2302.04265
这一单一创新为泊松流模型提供了更大的可变性,极端情况提供了不同的好处。例如,当 D 较低时,模型更加稳健,这意味着它更能容忍估计电场时产生的误差。「该模型无法完美预测电场,」麻省理工学院的另一位研究生、这两篇论文的合著者 Ziming Liu 说。「总有一些偏差。但稳健性意味着即使你的估计误差很高,你仍然可以生成好的图像。」所以你最终可能不会得到你梦想中的狗,但你仍然会得到像狗一样的东西。
在另一个极端,当 D 较高时,神经网络变得更容易训练,需要更少的数据来掌握其艺术技能。确切的原因不容易解释,但这是因为当维度更多时,模型需要跟踪的电场更少,因此需要吸收的数据也更少。
Ziming Liu 也是将 PFGM 扩展为包括多个可能维度的团队的一员,这使得研究人员能够微调神经网络的稳健性及其训练的简易性。
增强型模型 PFGM++「让您可以灵活地在这两个极端之间进行插值」,加州大学圣地亚哥分校的计算机科学家 Rose Yu 说。
Xu 说,在此范围内的某个位置存在 D 的理想值,可以在稳健性和易于训练之间取得适当的平衡。「未来工作的一个目标是找出一种系统的方法来找到最佳点,这样我们就可以针对给定情况选择最佳的 D,而无需诉诸反复试验。」
麻省理工学院研究人员的另一个目标是寻找更多的物理过程,为新的生成模型系列提供基础。通过一个名为 GenPhys 的项目,该团队已经确定了一个有前途的候选者:汤川势,它与弱核力有关 「这与泊松流和扩散模型不同,后者的粒子数量总是守恒的,」Liu 说。「汤川势可以让你湮灭粒子或将粒子一分为二。例如,这样的模型可以模拟细胞数量不必保持不变的生物系统。」
Yu 说,这可能是一条富有成效的研究路线。「它可能会带来新的算法和新的生成模型,其潜在应用范围将超出图像生成范围。」
仅 PFGM++ 就已经超出了其发明者最初的预期。他们起初没有意识到,当 D 设置为无穷大时,他们的放大泊松流模型与扩散模型无法区分。Liu 在今年早些时候进行的计算中发现了这一点。
斯坦福大学计算机科学家 Mert Pilanci 认为这种「统一」是麻省理工学院小组工作的最重要成果。他说:「PFGM++ 论文表明,这两种模型都是更广泛类别的一部分,这提出了一个有趣的问题:是否可能还有其他生成人工智能的物理模型等待发现,暗示着更宏伟的统一?」
参考内容:https://www.quantamagazine.org/new-physics-inspired-generative-ai-exceeds-expectations-20230919/
领取专属 10元无门槛券
私享最新 技术干货