前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

作者头像
新智元
发布于 2025-04-24 01:42:31
发布于 2025-04-24 01:42:31
1010
举报
文章被收录于专栏:新智元新智元

新智元报道

编辑:LRST

【新智元导读】Adam优化器是深度学习中常用的优化算法,但其性能背后的理论解释一直不完善。近日,来自清华大学的团队提出了RAD优化器,扩展了Adam的理论基础,提升了训练稳定性。实验显示RAD在多种强化学习任务中表现优于Adam。

ICLR(国际学习表征会议)是机器学习领域三大顶会之一,以推动深度学习基础理论和技术创新著称。每年,ICLR时间检验奖都会授予近十年对深度学习领域产生深远影响的里程碑式论文。

今年这一殊荣花落Adam优化器(Adaptive Moment Estimation),该算法于2014年由OpenAI工程师Diederik Kingma和University of Toronto研究生Jimmy Ba提出。

计算机视觉自然语言处理,从强化学习到生成模型,Adam以其卓越的自适应能力,成为当代深度学习模型的「标配」优化器,堪称AI领域的「万金油」。

Diederik Kingma是谷歌的一名研究科学家,曾经是OpenAI初创团队的一员,期间领导了基础算法研究团队。2018年,Kingma跳槽到谷歌,加入Google Brain(现为Google DeepMind),专注于生成式模型研究,包括扩散模型和大型语言模型。他是变分自编码器(VAE)、Adam优化器、Glow和变分扩散模型等工作的主要作者。

Jimmy Ba是深度学习教父Geoffrey Hinton的得意门生,于2018年获得University of Toronto的博士学位。作为Hinton学术家族的核心成员,他在ICLR、NeurIPS等顶级会议发表多篇开创性论文(其中Adam优化器论文引用量已突破21万次),堪称AI领域最具影响力的青年科学家之一。

Adam优化器虽在工程实践中表现优异,但长期以来缺乏对其优异性能的理论解释。

近期,清华大学李升波教授课题组发文 《Conformal Symplectic Optimization for Stable Reinforcement Learning》,解析了这一「黑箱」算法的优化动力学机理。

该课题组的研究发现了神经网络优化过程与共形哈密顿系统演化存在「完美」的数学对偶性,揭示了Adam优化器暗藏的「相对论动力学」和「保辛离散化」本质,并由此提出了训练更加稳定、性能更加优秀的RAD优化器(Relativistic Adaptive Gradient Descent),这一研究工作为神经网络优化动力学的分析及全新算法的设计开辟了新航道。

Adam优化器的历史与算法特点

神经网络的优化主要依赖梯度下降方法。自20世纪50年代随机梯度下降(SGD)首次提出以来,优化算法经历了多次重要演进。从动量方法如SGD-M和NAG,到自适应方法如AdaGrad、RMSprop,优化算法的「演变之战」已持续超过70年。

2014年,Diederik Kingma与Jimmy Ba联合提出了Adam优化器(算法1),将神经网络优化算法的性能向前推进了一大步。该算法的核心设计思想是融合Momentum和RMSProp两大优化方法的优势:

通过指数移动平均计算一阶动量vk+1和二阶动量yk+1,分别估计梯度的一阶矩(即梯度期望)和原始二阶矩(近似于梯度方差)。针对动量零初始化导致的估计偏差,通过引入偏差修正技术,Adam兼具了快速收敛与稳定训练的双重特性。

从算法原理看,Adam优化器通过动态维护一阶动量(方向修正)和二阶动量(步长调节),实现了参数更新的双重自适应:既优化了更新方向,又自动调整了有效学习率,显著加速了网络收敛。其偏差修正机制有效消除了训练初期的估计偏差,确保了参数更新的准确性。

此外,Adam展现出优异的超参数鲁棒性,在大多数场景下无需精细调参即可获得稳定性能。正是这些优势使其成为各类监督学习、强化学习任务的首选优化器。

Adam优化器为何具备如此出色的训练性能?至今仍缺乏对其优化动力学机理的深入解释,这已成为限制新一代神经网络优化算法设计的关键障碍。

梯度下降过程与动力学演化的对偶机制

受中国科学院院士冯康先生和美国国家三院院士M. I. Jordan的研究启发(前者开创了哈密顿算法与保辛离散化理论,后者成功将保辛理论引入最优化领域),清华大学的研究团队提出了一种神经网络优化算法的性能理论解释框架:

第一步,将神经网络的参数优化过程对偶为共形哈密顿系统的状态演化过程,建立参数梯度下降与系统能量耗散之间的内在联系。

第二步,利用保辛机制实现共形哈密顿系统的离散化,将离散系统的优势动态特性映射到神经网络的优化过程,从而完成对算法优化动力学的机理解释。

研究发现,神经网络梯度下降过程与共形哈密顿离散系统的演化呈现高度相似性,通过将网络参数θ对偶为系统状态q,目标函数J(θ)对偶为系统势能U(q),可直接建立二者间的对偶关系。

研究者据此开发了一个全新的网络优化算法开发框架,包含两个核心步骤:

1)动能建模:通过设计合适的动能项T(p)以嵌入期望的动态特性;

2)保辛离散:采用保辛离散方法以精确保持系统的动力学性质。

RAD优化器的设计思路与性能对比

进一步地,研究者将神经网络参数的优化过程建模为多粒子相对论系统状态的演化过程,通过引入狭义相对论的光速最大原理,抑制了网络参数的异常更新速率,同时提供了各网络参数的独立自适应调节能力,从理论上引入了对网络训练稳定性和收敛性等动态特性的保障机制。

这一工作使得研究者提出了既具备稳定动力学特性又适用于非凸随机优化的神经网络优化算法,即RAD优化器(算法2)。

研究发现,当速度系数σ=1且保辛因子ζk取固定小值ε时,RAD优化器将退化为Adam优化器,揭示了Adam优化器的动力学机理,说明了Adam优化器是新提出的RAD优化器的一个特例。

相比于Adam优化器,RAD优化器具有更加优异的长期训练稳定性,这是因为:

1)优化前期:RAD具有类似Adam的快速收敛特性,能够高效定位到最优解的邻域;

2)优化后期:RAD的保辛结构逐渐增强,具备维持共形哈密顿系统动态特性的能力,确保算法具备更加优异的抗干扰能力。

值得注意的是,Adam中的有理因子ε是一个「人为引入」的小常数,用于避免分母为零的数值错误。而RAD的保辛因子ζ与哈密顿系统的「质量×质能」(即m2c2)相关,具有明确的物理根源。

这为之前的经验性发现(即适度增加ε可提升Adam性能)提供了理论性解释:增大ε使得优化过程更加接近原始的动力学系统。该研究成果不仅深化了Adam与动力学系统的本质联系,同时也为分析其他主流自适应优化器(如AdaGrad、NAdam、AdamW等)提供了普适性的框架。

为了评估RAD优化器的性能,研究者在5种主流深度强化学习(DRL)算法(包括DQN、DDPG、TD3、SAC和ADP)和12个测试环境(包括1个CartPole任务、6个MuJoCo任务、4个Atari任务和1个自动驾驶任务)中开展了广泛测试,并与9种主流神经网络优化器(包括SGD、SGD-M、DLPF、RGD、NAG、Adam、NAdam、SWATS和AdamW)进行了比较,结果表明RAD综合性能均排名第一。

特别在图像类标准测试环境Seaquest任务中,RAD性能达到Adam优化器的2.5倍,得分提升了155.1%

参考资料:

[1] Lyu Y, Zhang X, Li S E, et al. Conformal Symplectic Optimization for Stable Reinforcement Learning[J]. IEEE Transactions on Neural Networks and Learning Systems, 2024: 1-15.

[2] Kingma D P, Ba J. Adam: A method for stochastic optimization[C]//3rd International Conference on Learning Representations (ICLR). 2015: 1-11.

[3] Li S E. Reinforcement learning for sequential decision and optimal control[M]. Singapore: Springer Verlag, 2023.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
学界 | Michael I.Jordan:AI 时代变革,源于应用场景中的优化算法
AI 科技评论按:8 月 9 日,为期两周的 2018 国际数学家大会(ICM)在里约热内卢完美谢幕,来自全球一百多个国家的 3000 多位数学家出席了本次盛会。
AI科技评论
2018/10/25
5570
学界 | Michael I.Jordan:AI 时代变革,源于应用场景中的优化算法
Adam真的是最好的优化器吗?
Adam 优化器是深度学习中最流行的优化器之一。它适用于很多种问题,包括带稀疏或带噪声梯度的模型。其易于精调的特性使得它能够快速获得很好的结果,实际上,默认的参数配置通常就能实现很好的效果。Adam 优化器结合了 AdaGrad 和 RMSProp 的优点。Adam 对每个参数使用相同的学习率,并随着学习的进行而独立地适应。此外,Adam 是基于动量的算法,利用了梯度的历史信息。基于这些特征,在选择优化算法时,Adam 往往是「当仁不让」。
阿泽 Crz
2021/01/11
3.1K0
Adam真的是最好的优化器吗?
驯服AI,更懂物理!何恺明团队提出全新DHN「去噪哈密顿网络」
近日,何恺明团队提出了去噪哈密顿网络(Denoising Hamiltonian Network,DHN),就像给物理知识开了挂。
新智元
2025/03/17
700
驯服AI,更懂物理!何恺明团队提出全新DHN「去噪哈密顿网络」
50%优势,力压OpenAI和DeepMind!清华DSAC系列算法全面解析
在当今的人工智能浪潮中,如何让机器获得像人一样的学习能力,是推动机器智能化水平不断进化,最终实现具身智能甚至通用人工智能(AGI)的关键。
新智元
2025/02/15
880
50%优势,力压OpenAI和DeepMind!清华DSAC系列算法全面解析
【机器学习】和【人工智能】在量子力学中的应用以及代码案例分析
量子力学是研究微观粒子运动规律的科学,涉及波函数、叠加态、量子纠缠等复杂的物理概念。随着计算能力的提高,特别是机器学习和人工智能的发展,研究者能够更好地解决量子系统中的难题。主要的应用方向包括:
知孤云出岫
2024/09/08
1650
【机器学习】和【人工智能】在量子力学中的应用以及代码案例分析
深度学习最常用的学习算法:Adam优化算法
听说你了解深度学习最常用的学习算法:Adam优化算法?-深度学习世界。 深度学习常常需要大量的时间和机算资源进行训练,这也是困扰深度学习算法开发的重大原因。虽然我们可以采用分布式并行训练加速模型的学习,但所需的计算资源并没有丝毫减少。而唯有需要资源更少、令模型收敛更快的最优化算法,才能从根本上加速机器的学习速度和效果,Adam 算法正为此而生! Adam 优化算法是随机梯度下降算法的扩展式,近来其广泛用于深度学习应用中,尤其是计算机视觉和自然语言处理等任务。本文分为两部分,前一部分简要介绍了 Adam 优化
用户1332428
2018/03/09
10.4K0
深度学习最常用的学习算法:Adam优化算法
10年前VAE经典论文获奖,ICLR 2024首个时间检验奖公布
由深度学习巨头、图灵奖获得者 Yoshua Bengio 和 Yann LeCun 在 2013 年牵头举办的 ICLR 会议,在走过第一个十年后,终于迎来了首届时间检验奖。
机器之心
2024/05/14
3040
10年前VAE经典论文获奖,ICLR 2024首个时间检验奖公布
分子动力学模拟算法框架
分子动力学模拟在新材料和医药行业有非常重要的应用,这得益于分子动力学模拟本身的直观表述,用宏观的牛顿力学,结合部分微观的量子力学效应,就能够得到很好的符合统计力学推断的结果。可以说,分子动力学模拟从理论上跨越了物理化学生物等多个学科,而从实践上又包含了计算机科学、人工智能的大量辅助和优化,综合性非常强。越是综合性强的研究方向,就越有必要梳理清楚其主干脉络和工作流程。
DechinPhy
2022/05/10
1K0
分子动力学模拟算法框架
Pytorch中常用的四种优化器SGD、Momentum、RMSProp、Adam。
很多人在使用pytorch的时候都会遇到优化器选择的问题,今天就给大家介绍对比一下pytorch中常用的四种优化器。SGD、Momentum、RMSProp、Adam。
ShuYini
2019/08/21
24.3K0
Pytorch中常用的四种优化器SGD、Momentum、RMSProp、Adam。
【深度学习实验】网络优化与正则化(三):随机梯度下降的改进——Adam算法详解(Adam≈梯度方向优化Momentum+自适应学习率RMSprop)
  目前,研究人员通过大量实践总结了一些经验方法,以在神经网络的表示能力、复杂度、学习效率和泛化能力之间取得良好的平衡,从而得到良好的网络模型。本系列文章将从网络优化和网络正则化两个方面来介绍如下方法:
Qomolangma
2024/07/30
3260
【深度学习实验】网络优化与正则化(三):随机梯度下降的改进——Adam算法详解(Adam≈梯度方向优化Momentum+自适应学习率RMSprop)
【强基固本】从动力学角度看优化算法(五):为什么学习率不宜过小?
“强基固本,行稳致远”,科学研究离不开理论基础,人工智能学科更是需要数学、物理、神经科学等基础学科提供有力支撑,为了紧扣时代脉搏,我们推出“强基固本”专栏,讲解AI领域的基础知识,为你的科研学习提供助力,夯实理论基础,提升原始创新能力,敬请关注。
马上科普尚尚
2020/11/04
5820
【强基固本】从动力学角度看优化算法(五):为什么学习率不宜过小?
【干货】深度学习需要了解的四种神经网络优化算法
【导读】近日,Vadim Smolyakov发表了一篇博客,针对当前神经网络的优化算法进行了总结,并利用简单的CNN网络在NMIST数据集上进行实验,探讨不同的优化方法的效果好坏。其中考虑了四种神经网络训练的优化方法:SGD,Nesterov Momentum,RMSProp和Adam,并用TensorFlow进行训练。作者最终得出结果:使用Nesterov Momentum和Adam的SGD产生的结果更好。如果您对神经网络的优化算法还不是很了解,那么相信这篇文章将会给您很好的启发!专知内容组编辑整理。 N
WZEARW
2018/04/12
1.3K0
【干货】深度学习需要了解的四种神经网络优化算法
Adam 优化算法详解
Adam Optimizer是对SGD的扩展,可以代替经典的随机梯度下降法来更有效地更新网络权重。
deephub
2020/06/10
1.4K0
【GAN优化】从动力学视角看GAN是一种什么感觉?
今天讲述的内容是GAN与动力学,这是一个非常好玩、非常新鲜的视角。考虑到很多人微积分和线性代数等知识的涉猎不多,我将会对涉及的内容都做出基本说明,也并不会涉及过深入的东西,然后争取串成一个故事,扩展一下大家的视野。
用户1508658
2019/08/29
1.5K1
人类绝望,机器接盘:用AI自动发现三体的守恒定律!北大校友与《生命3.0》作者共同杰作
熟悉《三体》的科幻爱好者们都知道,三体人所在行星围绕着三颗恒星运行。不仅行星轨道极其不稳定,连三颗恒星之间的相对位置也变化无穷。所以,三体人经常要面临灭绝性的气候,不是严寒就是酷热,搞得三体人总是不能安心地建立长久的文明,时不时被打断。要么暂时像水熊虫一样脱水躲避灾难,要么就得从头再来。
AI科技评论
2021/05/19
6440
人类绝望,机器接盘:用AI自动发现三体的守恒定律!北大校友与《生命3.0》作者共同杰作
MIT惊人神作:AI独立提出哈密顿物理!0先验知识,一天破译人类百年理论
大佬Max Tegmark、Ziming Liu等人在一项新研究中发现,AI能够在没有任何先验知识的情况下,能够完全独立地提出哈密顿物理量。
新智元
2025/04/18
1190
MIT惊人神作:AI独立提出哈密顿物理!0先验知识,一天破译人类百年理论
优化器的理解与选择
深度卷积神经网络通常采用随机梯度下降类型的优化算法进行模型训练和参数求解。经过近几年深度学习的发展,也出现了一系列有效的网络训练优化新算法。在实际工程中,Pytorch 和 Keras 等框架几乎都已经封装好了最新的优化器算法,我们只需根据自身需要选择合适的优化器即可。但是理解一些典型的一阶优化算法还是很有必要的,本文将简单介绍这些算法的定义。
嵌入式视觉
2022/09/05
1K0
Adam优化算法「建议收藏」
深度学习常常需要大量的时间和计算机资源进行训练,这也是困扰深度学习算法开发的重大原因。虽然我们可以采用分布式并行训练加速模型的学习,但需要的计算资源并没有丝毫减少。而唯有需要资源更少、令模型收敛更快的最优化算法,才能从根本上加速机器的学习速度和效果,Adam算法正为此而生!
全栈程序员站长
2022/09/16
9190
【深度学习实验】网络优化与正则化(五):数据预处理详解——标准化、归一化、白化、去除异常值、处理缺失值
  目前,研究人员通过大量实践总结了一些经验方法,以在神经网络的表示能力、复杂度、学习效率和泛化能力之间取得良好的平衡,从而得到良好的网络模型。本系列文章将从网络优化和网络正则化两个方面来介绍如下方法:
Qomolangma
2024/07/30
7270
【深度学习实验】网络优化与正则化(五):数据预处理详解——标准化、归一化、白化、去除异常值、处理缺失值
量子计算赋能AI:优化大模型训练中的梯度下降
传统梯度下降算法的局限性日益凸显,例如收敛速度慢、易陷入局部极小值、计算资源消耗巨大等。量子计算凭借其并行性与量子态叠加特性,为解决这些问题提供了新的可能。 Quantum平台通过量子计算与经典AI技术的深度融合,正在重新定义大模型训练的优化范式。本文从技术原理、算法创新、实际应用三个层面,探讨 Quantum如何赋能梯度下降优化,推动AI训练效率的跨越式提升。
Michel_Rolle
2025/01/23
9570
推荐阅读
学界 | Michael I.Jordan:AI 时代变革,源于应用场景中的优化算法
5570
Adam真的是最好的优化器吗?
3.1K0
驯服AI,更懂物理!何恺明团队提出全新DHN「去噪哈密顿网络」
700
50%优势,力压OpenAI和DeepMind!清华DSAC系列算法全面解析
880
【机器学习】和【人工智能】在量子力学中的应用以及代码案例分析
1650
深度学习最常用的学习算法:Adam优化算法
10.4K0
10年前VAE经典论文获奖,ICLR 2024首个时间检验奖公布
3040
分子动力学模拟算法框架
1K0
Pytorch中常用的四种优化器SGD、Momentum、RMSProp、Adam。
24.3K0
【深度学习实验】网络优化与正则化(三):随机梯度下降的改进——Adam算法详解(Adam≈梯度方向优化Momentum+自适应学习率RMSprop)
3260
【强基固本】从动力学角度看优化算法(五):为什么学习率不宜过小?
5820
【干货】深度学习需要了解的四种神经网络优化算法
1.3K0
Adam 优化算法详解
1.4K0
【GAN优化】从动力学视角看GAN是一种什么感觉?
1.5K1
人类绝望,机器接盘:用AI自动发现三体的守恒定律!北大校友与《生命3.0》作者共同杰作
6440
MIT惊人神作:AI独立提出哈密顿物理!0先验知识,一天破译人类百年理论
1190
优化器的理解与选择
1K0
Adam优化算法「建议收藏」
9190
【深度学习实验】网络优化与正则化(五):数据预处理详解——标准化、归一化、白化、去除异常值、处理缺失值
7270
量子计算赋能AI:优化大模型训练中的梯度下降
9570
相关推荐
学界 | Michael I.Jordan:AI 时代变革,源于应用场景中的优化算法
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档