Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >将哈密顿力学泛化到神经算子,何恺明团队又发新作,实现更高级物理推理

将哈密顿力学泛化到神经算子,何恺明团队又发新作,实现更高级物理推理

作者头像
机器之心
发布于 2025-03-13 13:28:04
发布于 2025-03-13 13:28:04
670
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:杜伟、蛋酱

继上月末连发两篇论文(扩散模型不一定需要噪声条件分形生成模型)之后,大神何恺明又出新作了!这次的主题是「用于物理推理的去噪哈密顿网络」。

物理推理包含推断、预测和解释动态系统行为的能力,这些是科学研究的基础。应对此类挑战的机器学习框架通常被期望超越仅仅记忆数据分布的做法,从而维护物理定律,解释能量和力的关系,并纳入超越纯数据驱动模型的结构化归纳偏差。科学的机器学习通过将物理约束直接嵌入神经网络架构(通常通过显式构建物理算子)来解决这一挑战。

不过,这些方法面临两个关键限制。其一,这些方法主要学习局部时序更新(预测从一个时间步骤到下一个时间步骤的状态转换),而不捕获远程依赖或抽象的系统级交互。其二,这些方法主要关注前向模拟,从初始条件预测系统的演变,而在很大程度上忽略了超分辨率、轨迹修复或从稀疏观测中进行参数估计等互补任务。

为了解决这些限制,何恺明等来自 MIT、斯坦福大学等机构的研究者提出了去噪哈密顿网络(Denoising Hamiltonian Network,DHN),这是一个将哈密顿力学泛化到神经算子的框架。

image.png
image.png
  • 论文标题:Denoising Hamiltonian Network for Physical Reasoning
  • 论文地址:https://arxiv.org/pdf/2503.07596

下图 1 为去噪哈密顿网络(DHN)概览。

image.png
image.png

研究者表示,DHN 在利用神经网络灵活性的同时实施物理约束,带来以下三项关键创新。

首先,DHN 通过将系统状态组合视为 token 来扩展哈密顿神经算子以捕获非局部时间关系,从而能够从整体上对系统动态进行推理,而不是分步推理。

其次,DHN 集成了一个去噪目标,其灵感来自去噪扩散模型,用于减轻数值积分误差。通过迭代地将其预测细化为物理上有效的轨迹,DHN 提高了长期预测的稳定性,同时保持了在不同噪声条件下的适应性。此外,通过利用不同的噪声模式,DHN 支持在各种任务场景中进行灵活的训练和推理。

最后,研究者引入了全局条件以促进多系统建模。一个共享的全局潜在代码被用来对系统特定属性(例如质量、摆长)进行编码,使 DHN 能够在统一框架下对异构物理系统进行建模,同时保持底层动态的解耦表示。

在实验部分,为了评估 DHN 的通用性,研究者通过三个不同的推理任务对其进行了测试,包括轨迹预测和完成、从部分观察中推断物理参数,以及通过渐进式超分辨率插入稀疏轨迹。

总之,这项工作推动了在局部时序关系之外嵌入物理约束的更通用架构的发展,为更广泛的物理推理应用开辟了道路,超越了传统的前向模拟和下一状态预测。

论文一作 Congyue Deng 发推表示,过去通过扩展卷积算子使其从低级图像处理上升到高级视觉推理,如今 DHN 可以通过扩展物理算子来实现更高级的物理推理。

image.png
image.png

同时,她也提出了三个开放性问题,包括「如何定义深度学习中的物理推理」、「什么是物理模拟」、「神经网络应该具备哪些物理属性」。她说到,DHN 不是最终的解决方案,只是一个开始。

image.png
image.png

方法概览

本文的目标是设计更通用的神经算子,既遵循物理约束,又释放神经网络作为可优化黑盒函数的灵活性和表现力。研究者首先问了一个问题:除了下一状态预测之外,我们还能建模哪些「物理关系」?

下图 2 比较了三种不使用机器学习来建模物理系统的经典方法,包括如下:

  • 全局解析解决方案。对于具有规则结构的简单系统,人们通常直接得出闭式解。
  • PDE + 数值积分,在更复杂的环境中,如果没有闭式解,标准做法是将系统的动态过程表示为 PDE,然后通过数值方法逐步求解。
  • 直接全局关系。在某些复杂系统中(例如没有耗散力的纯保守系统),时间上相距较远的状态可以直接使用全局守恒定律(例如能量守恒定律)来关联。
image.png
image.png

图 3 展示了一个离散的哈密顿网络(右),用于计算时间步长 t_0 和 t_1 之间的状态关系。研究者主要使用哈密顿 H^+(右)来描述他们的网络设计。

image.png
image.png

去噪哈密顿网络

掩码建模和去噪。研究者希望哈密顿块不仅能对跨时间步的状态关系进行建模,还能学习每个时间步的状态优化,以便进行推理。为此,他们采用了掩码建模策略,在训练网络时屏蔽掉部分输入状态(图 5)。

image.png
image.png

这里不是简单地屏蔽输入状态,而是用不同幅度的噪声采样对输入状态进行扰动(图 5)。这种策略可确保模型学会迭代改进预测,使其能够从损坏或不完整的观测结果中恢复有物理意义的状态。

具体来说,研究者定义了一个噪声水平递增的序列

image.png
image.png

以阻塞输入状态

截屏2025-03-12 10.03.01.png
截屏2025-03-12 10.03.01.png

为例,研究者随机采样高斯噪声

截屏2025-03-12 10.15.06.png
截屏2025-03-12 10.15.06.png

和每个状态的噪声规模

截屏2025-03-12 10.15.19.png
截屏2025-03-12 10.15.19.png

在实验中,去噪步数设置为 10。在推理时,研究者用一连串同步于所有未知状态的递减噪声尺度对未知状态进行逐步去噪。他们同时应用

截屏2025-03-12 10.17.47.png
截屏2025-03-12 10.17.47.png

截屏2025-03-12 10.17.51.png
截屏2025-03-12 10.17.51.png

来迭代更新

截屏2025-03-12 10.18.39.png
截屏2025-03-12 10.18.39.png

截屏2025-03-12 10.18.48.png
截屏2025-03-12 10.18.48.png

不同的掩码模式通过在训练过程中设计不同的掩码模式,可以根据不同的任务制定灵活的推理策略。图 6 展示了三种不同的掩码模式:通过屏蔽一个数据块的最后几个状态来实现自回归,这类似于利用前向建模进行下一状态预测的物理模拟;通过掩码一个数据块中间的状态来实现超分辨率,这可应用于数据插值;更广泛地说,包括随机掩码在内的任意顺序掩码,掩码模式根据任务要求进行自适应设计。

image.png
image.png

网络架构

纯解码器 Transformer。对于每个哈密顿块,网络输入是不同时间步的

截屏2025-03-12 10.03.01.png
截屏2025-03-12 10.03.01.png

栈、

截屏2025-03-12 10.02.54.png
截屏2025-03-12 10.02.54.png

栈,研究者还引入了整个轨迹的全局潜码 z 作为条件。如图 7 所示,研究者采用了一种纯解码器 Transformer,它类似于类似于 GPT 的纯解码器架构,但没有因果注意力掩码。

SCR-20250312-itrm_副本.jpg
SCR-20250312-itrm_副本.jpg

研究者将所有输入 token

截屏2025-03-12 10.04.40.png
截屏2025-03-12 10.04.40.png

作为长度为 2b + 1 的序列应用了自注意力。全局潜码 z 作为查询 token,用于输出哈密顿值 H。还通过在位置嵌入中添加每个状态的噪声标度,将其编码到网络中。在实验中,研究者实现了一个适合单 GPU 的简单双层 Transformer。

自解码。研究者没有依赖编码器网络从轨迹数据中推断全局潜码,而是采用了自解码器框架,为每条轨迹维护一个可学习的潜码 z(图 8)。这种方法允许模型高效地存储和完善特定系统的嵌入,而不需要单独的编码过程。在训练过程中,研究者会联合优化网络权重和代码库。训练结束后,给定一个新轨迹,冻结网络权重,只优化新轨迹的潜码。

image.png
image.png

实验

研究者用两种设置来评估模型:单摆和双摆。两种设置都包含一个模拟轨迹数据集。单摆是一个周期性系统,每个状态下的总能量都可以通过(q, p)直接计算出来,因此此处用它来评估模型的能量守恒能力。双摆是一个混沌系统,微小的扰动会导致未来状态的偏离。

他们用与图 6 中三种不同掩码模式相对应的三种不同任务来测试模型。它们分别是:(i) 用于前向模拟的下一状态预测(自回归);(ii) 用于物理参数推断的随机掩蔽表示学习;以及 (iii) 用于轨迹插值的渐进式超分辨率。这些任务突出了 DHN 对各种物理推理挑战的适应性,测试了它在不同观测限制条件下生成、推断和插值系统动态的能力。

前向模拟

  • 拟合已知轨迹

图 9 显示了采用不同块大小的模型与采用不同数值积分器的 HNN 的比较结果。左图和右图分别是单摆和双摆系统在每个时间步的 q 预测值的均方误差(MSE)。中间的图显示了一个示例轨迹上的平均总能量误差和总能量的演变。对于 DHN,每个时间步的状态优化由去噪机制建模,无需变分积分器。当块大小为 2 时,本文的模型可以稳定地保存总能量。增加块大小会在较长的时间范围内引起能量波动,但这种波动并没有表现出明显的能量漂移倾向。

截屏2025-03-12 09.19.57.png
截屏2025-03-12 09.19.57.png
  • 以新颖的轨迹完成

图 10 显示了与 HNN(上行)和各种无物理约束基线模型(下行)的比较结果。本文的 DHN 采用较小的块大小,状态预测更准确,节能效果更好。

截屏2025-03-12 09.24.23.png
截屏2025-03-12 09.24.23.png

表征学习

图 11 展示了与 HNN 和常规网络相比,DHN 在不同块大小(s = b/2)下的线性探测结果。与基线网络相比,本文的模型实现了更低的 MSE。如图 4 所示,HNN 可以看作是哈密顿块的特例,其核大小和步长均为 1,具有最强的局部性。研究者引入的块大小和跨度允许模型在不同尺度上观察系统。在这个双摆系统中,块大小为 4 是推断其参数的最佳时间尺度。

截屏2025-03-12 09.27.39.png
截屏2025-03-12 09.27.39.png

图 12 展示了不同块大小和步长的 DHN 结果。如图 12b 所示,哈密顿块的输入和输出状态有一个 b-s 时间步长的重叠区域。哈密顿块的广义能量守恒依赖于重叠区域具有相同的输入和输出。在训练过程中,这一约束作为状态预测损失的一部分强加给网络。较大的重叠会对网络施加更强的正则化,但会鼓励网络执行更多的自一致性约束,而不是更多的状态间关系。相反,减少重叠度的同时增加跨度,可以鼓励模型吸收更多时间上较远的状态信息,但代价是削弱自洽性约束,从而影响稳定性。在重叠等于块大小 b 且跨度为零的极端情况下,DHN 块的输入和输出完全相同,训练损失退化为自相干约束。HNN 是另一种重叠为零的特殊情况(因为块大小为 1,重叠只能为零)。如 12b 所示,对于简单双层 transformer,最佳的块大小和跨度约为 s≈ b/2,重叠量适中。

截屏2025-03-12 09.27.47.png
截屏2025-03-12 09.27.47.png

轨迹插值

研究者通过重复应用 2 倍超分辨率来实现 4 倍超分辨率。如图 13 左所示,为每个阶段构建一个 b = 2、s = 1 的 DHN 块。不同稀疏度的轨迹块如图 13 右所示。掩码应用于中间状态,边上的两个状态是已知的。

截屏2025-03-12 09.33.25.png
截屏2025-03-12 09.33.25.png

在所有三个超分辨率阶段中,每个轨迹都与共享的全局潜码相关联,从而为训练集形成一个结构化代码集。在训练过程中,网络权重和这些潜码会在逐步细化阶段(0、1、2)中共同优化。在推理时,给定一个仅在最稀疏水平(第 0 阶段)已知状态的新轨迹,研究者冻结了 DHN 块中的所有网络权重,并优化第 0 阶段的全局潜码。

最后,研究者将本文模型与用于超分辨率的 CNN 进行了比较,结果如图 14 所示。对于与训练数据具有相同初始状态的轨迹,两个模型都显示出较好的插值结果,MSE 也较低。基线 CNN 的结果稍好,因为它本身没有正则化,很容易过拟合训练轨迹。对于具有未知初始状态的测试轨迹,CNN 难以实现泛化,因为其插值在很大程度上依赖于训练分布。相比之下,DHN 具有很强的泛化能力,因为其物理约束表征使其即使在分布变化的情况下也能推断出可信的中间状态。

截屏2025-03-12 09.33.33.png
截屏2025-03-12 09.33.33.png

更多研究细节,可参考原论文。

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
驯服AI,更懂物理!何恺明团队提出全新DHN「去噪哈密顿网络」
近日,何恺明团队提出了去噪哈密顿网络(Denoising Hamiltonian Network,DHN),就像给物理知识开了挂。
新智元
2025/03/17
970
驯服AI,更懂物理!何恺明团队提出全新DHN「去噪哈密顿网络」
何恺明团队新突破:用"物理直觉"重构AI视觉系统,去噪神经网络让机器看懂世界规律
在计算机视觉领域,何恺明团队再次引领技术浪潮。他们最新提出的去噪哈密顿网络(Denoising Hamiltonian Network, DHN),首次将物理规律与去噪技术深度融合,赋予AI系统“物理直觉”。这一突破不仅刷新了物理模拟的精度极限,更让计算机视觉从“被动感知”迈向“主动推理”的新纪元。本文结合多方研究视角,深度解析这一技术的革新意义。
CoovallyAIHub
2025/03/14
2480
何恺明团队新突破:用"物理直觉"重构AI视觉系统,去噪神经网络让机器看懂世界规律
MIT惊人神作:AI独立提出哈密顿物理!0先验知识,一天破译人类百年理论
大佬Max Tegmark、Ziming Liu等人在一项新研究中发现,AI能够在没有任何先验知识的情况下,能够完全独立地提出哈密顿物理量。
新智元
2025/04/18
1810
MIT惊人神作:AI独立提出哈密顿物理!0先验知识,一天破译人类百年理论
深入浅出Diffusion模型:从原理到实践的全方位教程
近年来,生成式人工智能(Generative AI)领域取得了爆炸性的进展,模型能够根据简单的文本提示创作出逼真的图像、连贯的文本,乃至更多令人惊叹的内容。在这场技术革命中,Diffusion模型(扩散模型)已成为一股主导力量,催生了许多当前最先进的成果 1。它们凭借其独特的机制,在图像合成、音频生成等多个领域展现出卓越性能,正迅速成为生成式建模领域的新范式 1。
@小森
2025/06/10
7850
神经网络替代密度泛函理论!清华研究组发布通用材料模型 DeepH,实现超精准预测
清华大学研究人员利用原创的深度学习密度泛函理论哈密顿量 (DeepH) 方法,发展出 DeepH 通用材料模型,并展示了一种构建「材料大模型」的可行方案,这一突破性进展为创新材料发现提供了新机遇。
HyperAI超神经
2024/07/16
5820
神经网络替代密度泛函理论!清华研究组发布通用材料模型 DeepH,实现超精准预测
普林、DeepMind新研究:结合深度学习和符号回归,从深度模型中看见宇宙
来自普林斯顿、DeepMind 等机构的研究人员提出了一种解决方案:结合深度学习和符号回归实现这一目标。
机器之心
2020/06/30
7020
普林、DeepMind新研究:结合深度学习和符号回归,从深度模型中看见宇宙
LeCun团队新作:在世界模型中导航
最近,世界模型(World Models)似乎成为了 AI 领域最热门的研究方向。
机器之心
2025/02/14
1040
LeCun团队新作:在世界模型中导航
斯坦福大学新研究:声波、光波等都是RNN
论文地址:https://advances.sciencemag.org/content/5/12/eaay6946
机器之心
2020/02/24
5520
斯坦福大学新研究:声波、光波等都是RNN
何恺明团队新作ViTDet:用于目标检测的视觉Transformer主干网络
做目标检测就一定需要 FPN 吗?昨天,来自 Facebook AI Research 的 Yanghao Li、何恺明等研究者在 arXiv 上上传了一篇新论文,证明了将普通的、非分层的视觉 Transformer 作为主干网络进行目标检测的可行性。他们希望这项研究能够引起大家对普通主干检测器的关注。
Amusi
2022/04/18
1.1K0
何恺明团队新作ViTDet:用于目标检测的视觉Transformer主干网络
Nat. Commun. | 机器学习势能中的炼金自由度:插值与微分新策略
机器学习原子间势(MLIPs)已成为现代原子模拟的重要工具。近期,基于大规模数据集预训练的通用MLIPs展现出优异的精度与泛化能力。然而,其计算成本仍限制了在化学无序系统(需大尺寸模拟单元)或采样密集型统计方法中的应用。研究人员在本研究中引入了连续且可微的炼金自由度,利用图神经网络MLIPs中将元素表示为实值张量的特性。该方法在输入图中加入具有权重的炼金原子,并调整了MLIP的消息传递与读出机制,从而实现材料组成状态之间的平滑插值。借助MLIP的端到端可微性,研究人员可高效计算能量对组成权重的梯度。据此,提出了用于优化固溶体组成以实现目标宏观性质、解析多组分氧化物的有序与无序结构,以及开展炼金自由能模拟以量化空位形成与成分变化自由能的方法。
DrugAI
2025/05/12
1390
Nat. Commun. | 机器学习势能中的炼金自由度:插值与微分新策略
下(应用篇)| 量子计算加速蛋白质折叠
本文将延续上篇文章,通过应用VQE算法模拟解决蛋白质折叠问题的实验,解决使用传统方法耗时长、准确率低的问题,从而极大提升现代分子生物学的研究效率,为破解蛋白质折叠谜题带来新希望,进一步推动科学界前进。
量子发烧友
2023/02/24
7500
下(应用篇)| 量子计算加速蛋白质折叠
Nat. Methods | 基于机器学习和生物物理的蛋白质-肽相互作用预测
2020年1月6日哈佛医学院Mohammed AlQuraishi和Peter K. Sorger研究团队合作在Nature methods上发表题Biophysical prediction of protein–peptide interactions and signaling networks using machine learning的研究成果。该研究利用机器学习方法能够准确地预测多蛋白家族间的球形蛋白结合域(PBD)-肽相互作用的亲和性。
DrugAI
2021/02/01
8020
Nat. Methods | 基于机器学习和生物物理的蛋白质-肽相互作用预测
Sora技术报告 视频生成模型作为世界模拟器 笔记 - plus studio
技术报告原题目叫做 Video generation models as world simulators,翻译一下就是 视频生成模型作为世界模拟器,地址在这里 。我写的时候是翻译和笔记并行,翻译感谢gpt4出色的翻译能力。
plus sign
2024/02/29
3230
Sora技术报告 视频生成模型作为世界模拟器 笔记 - plus studio
深度学习与统计力学(VI) :通过概率模型进行“深度想象”
经典的概率无监督学习通过最大化对数似然 从数据分布 中拟合一组简单的概率分布 。深度无监督学习的最新进展能够显著提高能够拟合数据的分布 的复杂度。这些进展给很多领域带来了一些引人注目的应用,例如语音生成,表示学习,其他任务的模型预训练[152],异常检测,缺失数据推断,降噪[150],超分辨率[153],压缩[154],计算机辅助设计[155],甚至一些名义上的有监督任务,例如分类和回归[156]。
数据科学人工智能
2022/03/31
7040
深度学习与统计力学(VI) :通过概率模型进行“深度想象”
Variational Inference with Normalizing Flows 2015 全译
Variational Inference with Normalizing Flows
CreateAMind
2024/05/22
2700
Variational Inference with Normalizing Flows 2015 全译
被误解的「中文版Sora」背后,字节跳动有哪些技术?
这几年,视频生成领域的技术迭代持续加速,很多科技公司也公布了相关技术进展和落地成果。在此之前,Pika、Runway 都曾推出过类似产品,但 Sora 放出的 Demo,显然以一己之力抬高了视频生成领域的标准。
机器之心
2024/03/18
1700
被误解的「中文版Sora」背后,字节跳动有哪些技术?
突破摩尔定律极限!前谷歌量子计算团队首创「热力学计算机」,英伟达GPU「退役」?
比起当前的CPU、GPU、TPU、FPGA等数字处理器,这种全新的AI加速器快了数个数量级,而且更加节能。
公众号-arXiv每日学术速递
2024/04/30
1690
突破摩尔定律极限!前谷歌量子计算团队首创「热力学计算机」,英伟达GPU「退役」?
Nat. Methods | 利用机器学习对蛋白质-肽相互作用和信号网络进行生物物理预测
今天给大家介绍的是由哈佛大学的Joseph M. Cunningham等人在“nature methods”上发表的文章“Biophysical prediction of protein–peptide interactions and signaling networks using machine learning”。
智能生信
2021/03/03
8300
Nat. Methods | 利用机器学习对蛋白质-肽相互作用和信号网络进行生物物理预测
学界 | 清华大学段路明组提出生成模型的量子算法
选自arXiv 机器之心编译 参与:乾树、樊晓芳 近日,清华大学段路明组提出一种生成模型的量子算法。在证明因子图为量子网络的特例的基础上,继而证明了量子算法在重要应用领域中具备超越任何经典算法的表示能
机器之心
2018/05/09
1.3K0
学界 | 清华大学段路明组提出生成模型的量子算法
Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器
ICLR(国际学习表征会议)是机器学习领域三大顶会之一,以推动深度学习基础理论和技术创新著称。每年,ICLR时间检验奖都会授予近十年对深度学习领域产生深远影响的里程碑式论文。
新智元
2025/04/24
1310
Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器
推荐阅读
驯服AI,更懂物理!何恺明团队提出全新DHN「去噪哈密顿网络」
970
何恺明团队新突破:用"物理直觉"重构AI视觉系统,去噪神经网络让机器看懂世界规律
2480
MIT惊人神作:AI独立提出哈密顿物理!0先验知识,一天破译人类百年理论
1810
深入浅出Diffusion模型:从原理到实践的全方位教程
7850
神经网络替代密度泛函理论!清华研究组发布通用材料模型 DeepH,实现超精准预测
5820
普林、DeepMind新研究:结合深度学习和符号回归,从深度模型中看见宇宙
7020
LeCun团队新作:在世界模型中导航
1040
斯坦福大学新研究:声波、光波等都是RNN
5520
何恺明团队新作ViTDet:用于目标检测的视觉Transformer主干网络
1.1K0
Nat. Commun. | 机器学习势能中的炼金自由度:插值与微分新策略
1390
下(应用篇)| 量子计算加速蛋白质折叠
7500
Nat. Methods | 基于机器学习和生物物理的蛋白质-肽相互作用预测
8020
Sora技术报告 视频生成模型作为世界模拟器 笔记 - plus studio
3230
深度学习与统计力学(VI) :通过概率模型进行“深度想象”
7040
Variational Inference with Normalizing Flows 2015 全译
2700
被误解的「中文版Sora」背后,字节跳动有哪些技术?
1700
突破摩尔定律极限!前谷歌量子计算团队首创「热力学计算机」,英伟达GPU「退役」?
1690
Nat. Methods | 利用机器学习对蛋白质-肽相互作用和信号网络进行生物物理预测
8300
学界 | 清华大学段路明组提出生成模型的量子算法
1.3K0
Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器
1310
相关推荐
驯服AI,更懂物理!何恺明团队提出全新DHN「去噪哈密顿网络」
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档