首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

momentum

Momentum是一个物理学和机器学习中常用的概念。

一、基础概念

  1. 物理学中的动量(momentum)
    • 定义:在经典力学中,对于一个具有质量$m$和速度$v$的物体,其动量$p = mv$。动量是矢量,方向与速度方向相同。
    • 意义:它反映了物体运动的“趋势”和“惯性”。例如,在碰撞问题中,动量守恒定律表明,在没有外力作用的情况下,系统总的动量保持不变。
  • 机器学习中的动量(momentum)
    • 定义:在优化算法(如梯度下降法)中使用。它考虑了之前梯度的方向,通过一个动量系数$\mu$(通常取值在0到1之间)来加权之前的梯度更新方向。
    • 公式:假设在第$t$步的参数更新为$\theta_t=\theta_{t - 1}-\alpha\nabla J(\theta_{t - 1})+\mu(\theta_{t - 1}-\theta_{t - 2})$,其中$\alpha$是学习率,$\nabla J(\theta)$是损失函数$J$关于参数$\theta$的梯度。

二、优势

  1. 物理学中的优势(相对而言)
    • 在分析复杂的力学系统时,动量守恒定律可以简化计算。例如,在多个物体相互作用的问题中,不需要详细分析每个物体之间的相互作用力随时间的细节,只需要考虑系统的初始和末态动量。
  • 机器学习中的优势
    • 加速收敛:动量算法可以让优化过程更快地穿越平坦区域并绕过局部最小值。因为它利用了之前的梯度信息,使得参数更新方向更平滑,减少了在山谷或者鞍点附近震荡的情况。
    • 更稳定的训练:有助于减少由于学习率设置不当导致的训练不稳定现象。

三、类型(主要从机器学习角度)

  1. 标准动量(Standard Momentum)
    • 如上述公式所示,是最基本的动量优化形式。
  • Nesterov加速梯度(NAG)
    • 它是对标准动量的一种改进。在计算梯度时,先按照带有动量的方向进行一个“预查看”,然后再计算梯度,使得优化方向更加准确。

四、应用场景

  1. 物理学中的应用场景
    • 碰撞实验分析:无论是弹性碰撞还是非弹性碰撞,动量守恒定律都是分析碰撞前后物体运动状态的重要依据。
    • 天体力学:研究天体之间的相互作用时,动量概念有助于理解天体的运动轨迹和相互作用效果。
  • 机器学习中的应用场景
    • 深度学习模型训练:如在神经网络训练中,无论是用于图像识别、自然语言处理还是其他任务,动量优化算法都可以提高训练效率和模型性能。
    • 函数拟合:在各种基于梯度的函数拟合任务中,动量有助于更快地找到最优解。

五、可能遇到的问题及解决方法(机器学习方面)

  1. 动量系数选择不当
    • 问题:如果$\mu$过大,可能会导致算法跳过最优解;如果$\mu$过小,则接近普通梯度下降,无法发挥动量的优势。
    • 解决方法:通过实验和经验来选择合适的$\mu$值。一般可以从0.9开始尝试,然后根据训练的收敛速度和稳定性进行调整。
  • 与其他超参数的冲突
    • 问题:动量与学习率等超参数相互影响。例如,当学习率过高且动量较大时,可能会导致参数更新幅度过大而发散。
    • 解决方法:采用系统的方法来调整超参数,如网格搜索或者随机搜索结合验证集的性能指标来找到合适的超参数组合。
页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

  • 深度学习优化入门:Momentum、RMSProp 和 Adam

    Momentum 与 SDG 结合使用的一种常用方法叫做 Momentum。Momentum 不仅会使用当前梯度,还会积累之前的梯度以确定走向。梯度下降方程修改如下。 第一个式子有两项。...第一项是上一次迭代的梯度,乘上一个被称为「Momentum 系数」的值,可以理解为取上次梯度的比例。...我们之所以使用指数平均是因为在 momentum 例子中看到的那样,它可以使得间隔和权重成正比例变化。...Adam 到目前为止,我们已经对比了 RMSProp 和 Momentum 两种方法。尽管 Momentum 加速了我们对极小值方向的搜索,但 RMSProp 阻碍了我们在振荡方向上的搜索。...为了确定迭代步长我们在方程 3 中用梯度的指数平均乘学习率(如 Momentum 的情况)并除以根号下的平方指数平均(如 Momentum 的情况),然后方程 4 执行更新步骤。

    52440

    Adaptive Inertia: Disentangling the Effects of Adaptive Learning Rate and Momentum

    Adaptive Inertia: Disentangling the Effects of Adaptive Learning Rate and Momentum 本博客暂略公式推导 Summary...Adai通过解偶Grad以及Momentum,让模型能够更快的逃离saddle points,更倾向选择flat minima而不是sharp minima....Momentum 有一个物理学上很容易想象的例子,对于一个重球,他总是偏向于按照惯性下降至最低点,而SGD的朴素随机梯度下降则不太符合现实生活中的重球下落,那如果给SGD加一个表示“质量”的“惯性”呢?...图片 then: 图片 通过对比定理1,2的 图片 ,可以发现SGD逃出鞍点仅仅是因为扩散效应,而Momentum的作用在于提供一个额外的惯性。...: 图片 即就平均逃逸时间而言,Momentum不影响flat minima的选择 Adam 作者针对Adam提出了看法一和看法二: Proposition 1 对于adam,有:

    53920

    如何评价Kaiming He的Momentum Contrast for Unsupervised?

    representation learning 中很常用的方法,在人脸等领域其实也在广泛使用,但是似乎很少看到在 key 和 query 上用不同 feature extractor 的,从论文看 momentum...一些小的想法: momentum encoder确实很巧妙,让这个方法扩展到了大数据集 个人感觉loss里面的tau会是比较重要的超参,特别是网络初始化不好的话 reid里面结合softmax loss...然后因为key encoder要比query encoder慢一点点同步(一样的话不好)所以加了个momentum。...discrimination 来做unsupervised representation learning,同样类似的文章还有examplar CNN [2] 和 NCE [3], 但是kaiming大神用momentum...Momentum Contrast: kaiming 大神用momentum的思想很好的弥补了我们方法的缺陷,从而使得模型在学习的过程中避免学习classifier weights 和memory bank

    1.5K40

    深度学习优化入门:Momentum、RMSProp 和 Adam

    虽然我们不能精确的计算它,但是我们可以遵循启发式方式,以指导我们根据之前的梯度进行优化 Momentum 与 SDG 结合使用的一种常用方法叫做 Momentum。...Momentum 不仅会使用当前梯度,还会积累之前的梯度以确定走向。 梯度下降方程修改如下。 ? 第一个式子有两项。...我们之所以使用指数平均是因为在 momentum 例子中看到的那样,它可以使得间隔和权重成正比例变化。...Adam 到目前为止,我们已经对比了 RMSProp 和 Momentum 两种方法。尽管 Momentum 加速了我们对极小值方向的搜索,但 RMSProp 阻碍了我们在振荡方向上的搜索。...为了确定迭代步长我们在方程 3 中用梯度的指数平均乘学习率(如 Momentum 的情况)并除以根号下的平方指数平均(如 Momentum 的情况),然后方程 4 执行更新步骤 超参数 beta1 一般取

    70100

    供应链数据因子化研究:Customer Momentum

    考虑更多层的客户,采用更长时间的动量,能够显著提高Customer Momentum因子的表现。...总结过去多年的研究方法,关于供应链数据在量化中的应用,主要有以下几个方面: 股票价格的传导,比如Customer Momentum研究的是客户价格变动对供应商的影响;Supplier Momentum研究的是供应商价格变动对于客户股票价格的影响...但总体而言,研究Customer Momentum,且发现明显传导效果的研究成果比较多,在Customer Momentum研究的过程中,还有许多值得考虑的问题: 多长时间的动量?...测试结果 针对MSCI发达国家指数成分股,基于Customer Momentum分为五组,做多Top组,做空Bottom组,月度调仓。...下表12给出了测试结果: 其中T表示Customer Momentum计算时采用的不同的时间长度,比如T=1,表示在等式5中采用过去1个月的收益率。

    79920

    深度学习优化入门:Momentum、RMSProp 和 Adam

    虽然我们不能精确的计算它,但是我们可以遵循启发式方式,以指导我们根据之前的梯度进行优化 Momentum 与 SDG 结合使用的一种常用方法叫做 Momentum。...Momentum 不仅会使用当前梯度,还会积累之前的梯度以确定走向。 梯度下降方程修改如下。 ? 第一个式子有两项。...我们之所以使用指数平均是因为在 momentum 例子中看到的那样,它可以使得间隔和权重成正比例变化。...Adam 到目前为止,我们已经对比了 RMSProp 和 Momentum 两种方法。尽管 Momentum 加速了我们对极小值方向的搜索,但 RMSProp 阻碍了我们在振荡方向上的搜索。...为了确定迭代步长我们在方程 3 中用梯度的指数平均乘学习率(如 Momentum 的情况)并除以根号下的平方指数平均(如 Momentum 的情况),然后方程 4 执行更新步骤 超参数 beta1 一般取

    46840

    深度学习优化入门:Momentum、RMSProp 和 Adam

    深度学习优化入门:Momentum、RMSProp 和 Adam 本文,我们讨论一个困扰神经网络训练的问题,病态曲率。...2 Momentum:动量 与 SDG 结合使用的一种常用方法叫做 Momentum。Momentum 不仅会使用当前梯度,还会积累之前的梯度以确定走向。梯度下降方程修改如下。 第一个式子有两项。...第一项是上一次迭代的梯度,乘上一个被称为「Momentum 系数」的值,可以理解为取上次梯度的比例。...3Adam 到目前为止,我们已经对比了 RMSProp 和 Momentum 两种方法。尽管 Momentum 加速了我们对极小值方向的搜索,但 RMSProp 阻碍了我们在振荡方向上的搜索。...为了确定迭代步长我们在方程 3 中用梯度的指数平均乘学习率(如 Momentum 的情况)并除以根号下的平方指数平均(如 Momentum 的情况),然后方程 4 执行更新步骤。

    17810

    梯度下降的可视化解释(Adam,AdaGrad,Momentum,RMSProp)

    A Visual Explanation of Gradient Descent Methods (Momentum, AdaGrad, RMSProp, Adam) by Lili Jiang https...在一个表面上动画演示5个梯度下降法: 梯度下降(青色) ,momentum(洋红色) ,AdaGrad (白色) ,RMSProp (绿色) ,Adam (蓝色)。...动量(Momentum) ? 带有动量的梯度下降算法(简称动量)借鉴了物理学的思想。想象一下在无摩擦的碗里滚动一个球。没有在底部停止,而是积累的动量推动它前进,球继续前后滚动。...让我们来看看它是如何工作的: sum_of_gradient = previous_sum_of_gradient * beta1 + gradient * (1 - beta1) [Momentum]...通过一些参数调整,Momentum 和 Adam (多得其动量组件)可以到达中心,而其它方法不能。 总之,梯度下降法算法是一类通过梯度来寻找函数最小点的算法。

    2K50

    梯度下降的可视化解释(Adam,AdaGrad,Momentum,RMSProp)

    A Visual Explanation of Gradient Descent Methods (Momentum, AdaGrad, RMSProp, Adam) by Lili Jiang https...在一个表面上动画演示5个梯度下降法: 梯度下降(青色) ,momentum(洋红色) ,AdaGrad (白色) ,RMSProp (绿色) ,Adam (蓝色)。...动量(Momentum) 带有动量的梯度下降算法(简称动量)借鉴了物理学的思想。想象一下在无摩擦的碗里滚动一个球。没有在底部停止,而是积累的动量推动它前进,球继续前后滚动。...让我们来看看它是如何工作的: sum_of_gradient = previous_sum_of_gradient * beta1 + gradient * (1 - beta1) [Momentum]...通过一些参数调整,Momentum 和 Adam (多得其动量组件)可以到达中心,而其它方法不能。 总之,梯度下降法算法是一类通过梯度来寻找函数最小点的算法。

    86720

    深度学习基础入门篇:优化策略梯度下降算法:SGD、MBGD、Momentum、Adam、AdamW

    深度学习基础入门篇[三]:优化策略梯度下降算法:SGD、MBGD、Momentum、Adam、AdamW 1.梯度下降算法(优化器) 1.1 原理解释 如果我们定义了一个机器学习模型,比如一个三层的神经网络...Momentum 为了抑制SGD的震荡,SGDM认为梯度下降过程可以加入惯性。可以简单理解为:当我们将一个小球从山上滚下来时,没有阻力的话,它的动量会越来越大,但是如果遇到了阻力,速度就会变小。...SGDM全称是SGD with momentum,在SGD基础上引入了一阶动量: v_t=\gamma v_{t-1}+\eta\nabla J(\theta) SGD-M参数更新公式如下,其中η是学习率...SGD 震荡且缓慢的沿着沟壑的下坡方向朝着局部最优点前进,如下图: momentum能够加速SGD方法,并且能够减少震荡,如下图: 特点 加入了动量因素,SGD-M缓解了SGD在局部最优点梯度为0...把一阶动量和二阶动量都用起来,就是Adam了——Adaptive + Momentum。 优点 通过一阶动量和二阶动量,有效控制学习率步长和梯度方向,防止梯度的振荡和在鞍点的静止。

    1.8K70
    领券