用动量公式进行梯度下降

动量公式是一种优化算法，用于在梯度下降过程中加速收敛并减少震荡。它通过引入一个动量项来考虑之前的梯度更新，从而在更新参数时具有一定的惯性。

动量公式的数学表达式如下： v = βv + (1-β)∇J(θ) θ = θ - αv

其中，v表示动量，β是一个介于0和1之间的超参数，控制之前梯度更新的权重，∇J(θ)表示损失函数J关于参数θ的梯度，α表示学习率。

动量公式的优势在于：

加速收敛：动量项可以帮助算法在参数空间中更快地找到最优解，特别是在存在平坦区域或局部最小值的情况下。
减少震荡：动量项可以减少参数更新的方差，从而减少参数在更新过程中的震荡，使得优化过程更加稳定。

动量公式在机器学习和深度学习中广泛应用，特别是在训练深层神经网络时效果显著。它可以加速模型的收敛速度，并提高模型的泛化能力。

腾讯云提供了多个与动量公式相关的产品和服务，包括：

腾讯云机器学习平台（https://cloud.tencent.com/product/tensorflow）：提供了丰富的机器学习工具和资源，包括深度学习框架TensorFlow，可以方便地应用动量公式进行模型训练和优化。
腾讯云GPU服务器（https://cloud.tencent.com/product/cvm）：提供了高性能的GPU服务器，可以加速深度学习模型的训练和推理过程，进一步提高动量公式的效果。
腾讯云容器服务（https://cloud.tencent.com/product/tke）：提供了容器化部署和管理的解决方案，可以方便地部署和扩展使用动量公式的机器学习模型。

总之，动量公式是一种优化算法，通过引入动量项来加速梯度下降过程，并减少参数更新的震荡。在机器学习和深度学习中具有重要的应用价值，腾讯云提供了相应的产品和服务来支持使用动量公式进行模型训练和优化。

页面内容是否对你有帮助？

有帮助

没帮助

梯度下降如何避免局部极小值？

、

在神经网络和深度学习中，梯度下降算法被描述为与梯度相反的方向。链接到书中的位置。是什么阻止这一策略在当地最低限度着陆？

浏览 0提问于2022-06-19得票数 1

回答已采纳

1回答

tf.train.ExponentialMovingAverage和tf.train.MomentumOptimizer有什么区别？

、、

我看到了doc，tf.train.ExponentialMovingAverage实现了这个公式： shadow_variable = decay * shadow_variable + (1 - decay) * variable 我没有找到tf.train.MomentumOptimizer的公式。但我想可能是： v = γ*v - learning_rate*dx θ = θ - v 我认为这两种功能有相似的效果，所以它们能相互交换吗?或者它们有不同的应用场景？还是我完全错了？ shadow_variable是否等同于θ？谢谢你的指导。

浏览 0提问于2018-04-08得票数 0

回答已采纳

1回答

SGD，手工计算

、

虽然我发现了很多SGD (随机梯度下降)的材料，但我很难找到一个具体的例子，例如用手计算它，比如说，一次迭代会对我有很大的帮助。 📷

浏览 0提问于2019-08-19得票数 2

1回答

动量SGD的实现减慢了网络速度

、

我一直在开发一个神经网络类，以后我可以把它变成我自己的库。这样做主要是为了更好地理解网络，我一直在阅读纯数学讲座中的所有公式，所以我可能有一些小细节是错误的。(在我开始这篇文章之前，我不知道怎么做) 在这个网络中，我编写了一个普通的SGD算法，然后是一个动量算法(或者至少是我认为的算法)。当我使用SGD在我的简单数据集上运行网络时，它工作得很好，没有任何问题。但是如果我尝试使用带有动量的SGD，网络根本不会学习，即使在10000次迭代之后，损失也保持在0.7%左右。我来来回回地引用来自许多地方的公式，虽然我仍然怀疑我是否完全理解，但我觉得这肯定是我的代码中的一些东西，但我无法弄明白。我尝试了

浏览 0提问于2021-01-25得票数 0

1回答

Tensorflow计算时间随模型大小的增加而下降

在运行我的实验时，我注意到在GPU支持下使用tensorflow的计算时间出现了奇怪的下降。每次迭代(1000个学习步骤)，模型大小增加200个隐藏神经元(具有一个隐藏层的简单完全连接的nn )。现在，我测量了每次迭代所需的时间，并注意到不同版本的算法在同一地点出现了这种下降。因此，这可能与机器上的某些外部事件无关，因为实验是连续运行的。在达到一定的模型大小后，tensorflow有什么可以利用的吗？

浏览 2提问于2018-04-15得票数 0

2回答

策略梯度:为什么这与Adam而不是SGD趋同？

、

我正在研究政策梯度方法。我无意中发现了这个实现：https://gist.github.com/calclavia/cfcd41ad4e47d7b9b6ab8af15410747a --它使用了Nesterov优化器。如果我运行它，它会在OpenAI健身房卡特波尔-V0上收敛并获得很好的分数。然而，如果我将优化器从Adam改为随机梯度下降(SGD)，它永远不会收敛，而且似乎是随机的。为什么会这样呢？政策梯度方法是否使SGD成为一个糟糕的选择？注意:该代码中有一个错误，它只运行了100个时间步骤。这一集可以持续200多个时间步骤。我在运行它的时候修好了这个。

浏览 0提问于2018-09-17得票数 3

1回答

对AdaGrad和AdaDelta数学的理解

、

我一直在为一个项目建立一些模型，但我不能把我的头脑集中在阿达格勒和阿德罗塔算法的数学上。我确实理解香草梯度下降是如何工作的，我已经编写了使它成功工作的代码。如果有人向我解释这两件事，或者提供一些资源来理解这两件事，我将不胜感激。

浏览 0提问于2018-02-10得票数 9

2回答

RMSProp和动量的区别？

、、、

有谁能告诉我，RMSProp方法和带有动量的梯度下降方法有什么明显的区别吗？两人都试图达到同样的效果。我读过的博客中有一篇指出了不同之处："RMSProp和动量采用对比的方法。虽然动量加速了我们的搜索方向，但RMSProp阻碍了我们在振荡方向上的搜索。“ 我不明白这句话。有人能详细说明两者之间的区别吗？

浏览 0提问于2020-06-21得票数 6

2回答

在我的梯度检查实现中，这些梯度差是可接受的吗？

、、

我正在构建一个带有几个FC层的CNN，用于预测图像中描述的类别。架构： X -> CNN -> ReLU -> POOL -> FC -> ReLU -> FC -> SOFTMAX -> Y_hat 我正在实现梯度检查，以检查我的梯度下降实现是否正确。我读到一个可接受的差值是10e-9的数量级。下面的差异看起来可以接受吗？ Epoch: 0 Cost: 2.8568426944476157 Numerical Grad Computed Grad -5.713070134419862e-11 -6.6169292267

浏览 0提问于2018-04-23得票数 2

2回答

带间歇训练算法的神经网络，何时应用动量和权重衰减

、、、

我建立了一个神经网络，并利用随机梯度下降的反向传播成功地训练了它。现在我转到批量训练，但我有点困惑什么时候应用动量和重量衰减。在理论上，我很清楚反向传播是如何工作的，我只是停留在实现细节上。使用随机方法，我所要做的就是在计算了梯度之后立即将更新应用于权重，就像在这个伪python代码中所做的那样： for epoch in epochs: for p in patterns: outputs = net.feedforward(p.inputs) # output_layer_errors is needed to plot the error

浏览 4提问于2014-11-15得票数 0

1回答

在TensorFlow中实现梯度下降，而不是使用它提供的

、

我想在TensorFlow中构建分类器时，使用带有动量的梯度下降(跟踪以前的梯度)。所以我不想使用tensorflow.train.GradientDescentOptimizer，但我想使用tensorflow.gradients来计算梯度，跟踪以前的梯度，并根据它们更新权重。我如何在TensorFlow中做到这一点？

浏览 16提问于2016-08-26得票数 5

1回答

为什么动力需要学习速度？

、、

如果动量优化器独立地为每个权重保留一个自定义的“惯性”值，那么为什么我们需要为学习速度而烦恼呢？当然，不管怎么说，动量很快就会把它的虚幻程度提高到任何所需的值，为什么要费心用学习速度来衡量它呢？ $$v_{dw} =\βv_{dw} +(1-\β)dw$ $$W = W-\alpha v_{dw}$$ 其中$\alpha$是学习率(0.01 )，$\beta$是动量系数(0.9 )。 <#>编辑谢谢你的回答！说得更清楚一点:动量控制“我们如何保持”运动，学习速度是“我们reGain多快”运动。

浏览 0提问于2018-04-21得票数 4

回答已采纳

1回答

随机梯度下降(动量)公式实现C++

、、、、

所以我有一个神经网络的实现，我在Youtube上关注了它。这家伙使用SGD (动量)作为优化算法，双曲正切作为激活函数。我已经将传递函数更改为Leaky ReLU (用于隐藏层)和Sigmoid (用于输出层)。但是现在我决定我也应该把优化算法改为Adam。我最终在维基百科上搜索SGD (动量)，以更深入地了解它是如何工作的，我注意到有些地方不对劲。这家伙在视频中使用的公式与维基百科上的不同。我不确定这是不是个错误...这段视频有一个小时长，但我不是要你看整个视频，而是我对54m37s的标记和维基百科的公式很感兴趣，就在这里：因此，如果你看看这家伙的实现，然后看看维基百科链接的SGD

浏览 0提问于2018-02-04得票数 0

1回答

Tensorflow Adam优化器

、、、

好的，我一直在读一些关于AdamOptimizer在tensorflow的文章。我觉得有些混乱，至少在像我这样的NNs初学者中是这样的。如果我的理解正确的话，tf.train.AdamOptimizer会保持一个所谓的“适应性学习率”.我认为随着时间的推移，这一学习速度会越来越小。然而，当我从中绘制出学习速率缩放函数时， t <- t + 1 lr_t <- learning_rate * sqrt(1 - beta2^t) / (1 - beta1^t) 我得到的是： t = np.arange(200) result = np.sqrt(1-0.999**t)/(1-0.9

浏览 2提问于2018-04-22得票数 2

回答已采纳

1回答

梯度下降算法在matlab中的错误求解

、、

我正在上一门机器学习的课程，试图用matlab实现梯度下降算法。函数computeCost工作正常，因为我已经单独测试了它。我使用它来查看每次迭代的成本，它似乎一点也没有减少。它只是随机波动。alpha的值是0.01，所以我知道这不是学习率太大的问题。对于theta，我得到的答案与预期输出相差很远。我哪里错了？提前感谢！ function theta = gradientDescent(X, y, theta, alpha, num_iters) %GRADIENTDESCENT Performs gradient descent to learn theta % Initialize so

浏览 0提问于2017-08-03得票数 1

回答已采纳

2回答

为什么亚当优化器不起作用？

、

我正在学习如何使用优化器来训练张量流中的模型。所以，我建立了一个线性模型，创建了一个玩具数据集，并用AdamOptimizer和GradientDescentOptimizer训练了线性模型。这是我的片段： # Training a linear model with Adam optimizer import tensorflow as tf import numpy as np # Training dataset Xs_ = np.random.random(48).reshape(12, 4) Yt_ = np.random.random(12).reshape(12, 1)

浏览 2提问于2017-07-26得票数 1

回答已采纳

1回答

确定梯度下降的起点

、

我刚刚了解到梯度下降的起点决定了终点。所以我想知道我们如何确定正确的起点来达到全局最小点，以便我们得到最小代价函数？

浏览 0提问于2020-12-26得票数 1

1回答

tf.stop_gradient和进给变量的流量差异对优化器的影响？

、、、

我试着在自学中培养一个模型。流程图如下所示：让我们假设N1已经接受了培训，我们只想培训N2。这是我目前的实现： x_1 = tf.placeholder(tf.float32, [None, 128, 128, 1]) x_2 = tf.placeholder(tf.float32, [None, 128, 128, 1]) s_t1 = tf.stop_gradient(N1(x_1)) # treat s_t1 as a constant s_t2_pred = N2(s_t1)) s_t2 = tf.stop_gradient(N1(x_2)) # treat s_t2

浏览 4提问于2019-09-30得票数 2

回答已采纳

1回答

从反向传播的角度理解乙状结肠曲线后的直觉

、、、

我试图理解S型乙状结肠/ logistic功能的意义。对于很大和很小的输入值，乙状结肠的斜率/导数接近于零。这是σ'(z) ≈ 0表示z > 10或z < -10。因此，对权重的更新将更小。然而，当z不太大或太小时，更新就会更大。我不明白“为什么在z太大太小的时候进行更小的更新”和“对于不太大的/不太小的z进行更大的更新”。我读到的一个理由是，它会压缩“异常值”。但是，有多大很小的z=wx+b显示对应的x是异常值呢？我也无法将乙状结肠导数曲线(蓝色)映射到下面的梯度下降曲线。这两条曲线之间有任何关系吗？乙状结肠曲线中很大和很小的z是否与GD曲线中间的全局极小值一致？

浏览 0提问于2021-09-26得票数 0

1回答

为什么动量梯度下降是指数加权平均？

、、、

我最近看了。我理解动量项通过加权最后的梯度并使用V_dw的一个小分量来更新梯度。我不明白为什么动量也被称为指数加权平均。另外，在Ng 6:37的视频中，他说使用Beta = 0.9实际上意味着使用最后10个梯度的平均值。有人能解释一下这是怎么回事吗？对我来说，它只是向量dW中所有梯度的1-0.9的标量加权。感谢你的洞察力！我觉得我错过了一些最基本的东西。

浏览 2提问于2018-06-29得票数 0

回答已采纳

2回答

神经网络体系结构设计

、、

我在玩弄神经网络，试图根据你需要解决的问题来理解设计它们的体系结构的最佳实践。我生成了一个非常简单的数据集，它由一个凸区域组成，如下所示：当我使用具有L= 1或L=2个隐藏层(加上输出层)的体系结构时，一切都很好，但是一旦我添加了第三个隐藏层(L = 3)，我的性能就会下降到略好于机会。我知道网络越复杂(需要学习的权重和参数数)越多，就越倾向于过度拟合数据，但我认为这不是我问题的本质，原因有两个：我在训练集上的表现也是60%左右(而过度拟合通常意味着你有一个很低的训练错误和很高的测试误差)，而且我有大量的数据示例(不要看这个数字，那只是我提到的一个玩具图)。

浏览 5提问于2013-11-15得票数 10

回答已采纳

1回答

如何在TensorFlow中计算子梯度？

、

TensorFlow中的自动微分过程是否在需要时计算次梯度？如果有许多子梯度，那么将选择哪一个作为输出？我正在尝试在link <code>C0</code>中实现这篇论文，它使用递归神经网络来执行有效的语言解析。目标函数使用铰链损失函数来选择最优输出向量，这使得该函数不可微。我在急切模式下使用TensorFlow (v1.12)对模型进行编程，并使用自动微分来计算梯度。每批处理后，我可以看到梯度值发生变化，精度略有提高。一段时间后，它会减少，这个过程会继续下去。对于所有的超参数配置，模型根本不收敛。小批量: 256,512,1024；正则化参数- 0.1，0.01，

浏览 21提问于2019-04-02得票数 0

回答已采纳

1回答

小批量梯度下降权值更新

、、

我试着把这个Kaggle从零开始，从随机梯度下降到小批量梯度下降，但它并不收敛。原始随机版本，它工作得很好。我的迷你批次版本：训练样本数=1000最小批次大小=每个小批内的100 ，我保存了每个样本的梯度增量，取了100个样本的平均值，然后更新了权重。因此，权重的增量计算了100次，但是每个小批只更新一次权重。下面的是我的代码，非常感谢任何人能够指出哪一部分是错误的。 import numpy as np # linear algebra import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv) from

浏览 3提问于2022-03-10得票数 0

3回答

噪声环境下的梯度下降

、

如何在嘈杂的环境中知道正确的方向？在典型的神经网络学习中，我们可以看到几个局部极小值。梯度下降是选择一个局部极小，并向这个方向移动，不知怎么地，它起作用了。我想象如果有很多神经元，就会有很大的可能性。我是电气工程师，所以我习惯于遇到噪音。我对神经网络这个话题也很陌生，如果这是个初学者的问题，请原谅。我担心如果我看得太近，可能的空间看起来很嘈杂。梯度下降只知道近距离观察:你在这个微点得到梯度。加上噪音，你的导出向量可能指向它想要的任何地方。我怎样才能实现一种不那么精细的晶粒方法，在一个嘈杂的平面上找到一个全局最小值，然后下降到一个更好的分辨率，以便在全局最小值内找到局部最小值？是的

浏览 0提问于2019-09-06得票数 1

1回答

如何在小数据集下选择神经网络的超参数和策略？

、

我目前正在做语义分割，但是我有非常小的数据集，我只有大约700张带有数据增强的图像，例如，翻转可以设置为2100张图像。不确定是否足够完成我的任务(语义分割有四个类)。我想使用批量归一化，和小批量梯度下降真正让我挠头的是，如果批量太小，批次归一化效果不佳，但如果批次较大，这似乎等同于全批次梯度下降。我想知道样本数量和批量大小之间是否有类似于标准比例的东西？

浏览 45提问于2019-03-21得票数 0

回答已采纳

1回答

带有动量的RMSProp与Adam优化器的区别

、

根据这个闪烁的博客，Adam非常类似于具有动量的RMSProp。从tensorflow文档中我们可以看到，tf.train.RMSPropOptimizer有以下参数 __init__( learning_rate, decay=0.9, momentum=0.0, epsilon=1e-10, use_locking=False, centered=False, name='RMSProp' ) 而tf.train.AdamOptimizer： __init__( learning_rate=0.001,

浏览 0提问于2018-01-18得票数 11

回答已采纳

1回答

神经网络怎么能脱离局部最小值呢？

、、

由于如此复杂的神经网络函数中存在大量的局部极小值，使得神经网络陷入局部极小值是很常见的。神经网络如何脱离局部极小值。 📷

浏览 0提问于2020-10-06得票数 1

2回答

滑雪板:梯度下降的超参数调整？

、、、

是否有一种方法来执行超参数调优在科学-学习梯度下降？虽然计算超参数梯度的公式可能比较困难，但通过计算超参数空间中的两个闭合点来计算超参数梯度是非常容易的。这一办法是否已有实施？为什么这种方法是个好主意呢？

浏览 2提问于2017-04-14得票数 19

回答已采纳

1回答

每次我们运行一个神经网络时，对于不同大小的训练和测试数据，它的预测精度会有所不同吗？

、

我有一个函数y=(x1)^2 + 2*(x2 )+(x3 )+ 3*(x4)^3，我必须预测它的值。因此，我在输入层有4个输入，在输出层有1个隐藏层和2个节点。如果[1 0]为正，则默认输出为[0 1]，如果y为负值，则为[0 1]。输入在0和1之间，权重在-1和1之间。阿尔法是0.01，阈值是0.005。当我用200个例子训练我的数据时，我得到了94%的训练数据和86%的测试数据(隐藏层中的4个节点)。我得到了90.2%的训练集250个例子和96%的测试数据。同时，同样的程序在训练和测试数据上也会产生不同的准确性(因为随机权重)。所以现在你能建议我怎样才能提高我的准确度达到98% -

浏览 6提问于2016-06-25得票数 0

回答已采纳

2回答

LinearRegression和SGDRegressor有什么区别？

、、

我知道LinearRegression类和scikit-learn的SGDRegressor类都执行线性回归。然而，只有SGDRegressor使用梯度下降作为优化算法。那么，LinearRegression使用的优化算法是什么，这两个类之间的其他显着差异是什么？

浏览 9提问于2021-03-15得票数 0

回答已采纳

2回答

为什么RMSProp比动量更快收敛？

为什么RMSProp在许多情况下比动量更快收敛？动量： $$v_{dW} := \βv_{dw} +(1-\β)dw$ $$W := W-\alpha v_{dw}$$ RMSProp： $$ S_{dw} := B \cdot S_{dw} + (1-B)\cdot (Dw)^2$ $$W := W- \alpha \frac{dw}{\sqrt{S_{dw}$$ 其中$\alpha$是学习率(0.01等)，$\beta$是动量项(0.9等)，类似于B。在我看来，动量和RMSProp都有“继续前进的趋势”。嗯，我可以看到RMSprop在平面上是如何自然加速的 $$\frac{1}{\sq

浏览 0提问于2018-04-21得票数 3

1回答

Matlab中神经网络训练数据越多，误差越大

、

我有一个关于Matlab神经网络工具箱的问题。作为研究项目的一部分，我决定创建一个Matlab脚本，它使用NN工具箱来获得一些合适的解决方案。我有一个数据流正在加载到我的系统中。输入数据由5个输入通道和1个输出通道组成。我在这种配置上训练我的数据一段时间，并尝试将输出(在一段时间内)与新数据流相适应。我不断地重新训练我的网络以保持它的更新。到目前为止，一切工作正常，但经过一段时间后，结果会变得很差，并且不能代表所需的输出。我真的不能解释为什么会发生这种情况，但我可以想象一定是某种内存问题，因为数据集仍然很小，一切都很好。只有当它变大时，模拟的质量才会下降。有没有什么东西像内存一样变满了，

浏览 1提问于2015-04-13得票数 0

1回答

如何用SGD优化器更新参数？

、

所以我找到了一个描述SGD-下降的公式。 θ = θ-η*∇L(θ;x,y) 其中θ是一个参数，η是学习速率，∇L()是损失函数的梯度下降。但我不明白的是，参数θ(应该是权重和偏差)是如何从数学上更新的呢？参数θ有数学解释吗？谢谢你的回答。

浏览 6提问于2022-01-22得票数 0

2回答

梯度下降:我们是否在GD中的每一步迭代所有的训练集？或者我们是否为每一套培训更改GD？

、

我用一些在线资源自学了机器学习，但我有一个关于梯度下降的问题，我无法弄清楚。梯度下降的公式是通过以下物流回归得出的： Repeat { θj = θj−α/m∑(hθ(x)−y)xj } 其中θj是变量j的系数，α是学习率，hθ(x)是假设，y是实数，xj是变量j的值，m是训练集的个数。hθ(x)，y是针对每个训练集的(也就是说，这就是求和符号的意思)。这就是我困惑的地方。我不清楚求和是否代表了我的整个训练集，或者到目前为止我做了多少次迭代。例如，想象一下我有10个训练例子。如果我在每个训练示例之后执行梯度下降，那么我的系数将非常不同，如果我在所有10个训练示例之后执行梯度下降

浏览 8提问于2013-06-24得票数 7

回答已采纳

5回答

有人能给我解释一下logistic回归中的代价函数和梯度下降方程之间的区别吗？

我正在学习关于Logistic回归的ML课程，以及Manning的机器学习实践。我正在尝试通过用Python实现所有的东西来学习。我不能理解代价函数和梯度之间的区别。在网上有一些例子，人们计算成本函数，但有些地方他们不计算，而只是使用梯度下降函数w :=w - (alpha) * (delta)w * f(w)。这两者之间的区别是什么？

浏览 1提问于2012-11-29得票数 56

回答已采纳

1回答

Nesterov的加速梯度下降是如何在Tensorflow中实现的？

、、

的文档提供了一个use_nesterov参数来使用Nesterov的加速梯度(NAG)方法。但是，NAG要求计算当前变量所在位置以外的位置处的梯度，并且apply_gradients接口只允许传递当前梯度。所以我不太明白NAG算法是如何通过这个接口实现的。文档描述了关于实现的以下内容： use_nesterov：如果为真，则使用涅斯特罗夫动量。参见。此实现始终在传递给优化器的变量的值处计算梯度。使用内斯特罗夫动量使变量跟踪论文中称为theta_t + mu*v_t的值。在通读了链接中的论文后，我有点不确定这个描述是否回答了我的问题。当接口不需要提供梯度函数时，如何实现NAG算法？

浏览 97提问于2018-06-09得票数 8

回答已采纳

1回答

tensorflow中的RMSProp优化器是否使用Nesterov动量？

、、

当您创建RMSPRop优化器时，它会请求动量值。这种势头是什么？是Nesterov还是另一个？如何在tf中利用RMSProp的Nesterov动量？这里的doc字符串中有一个公式： mean_square = decay * mean_square{t-1} + (1-decay) * gradient ** 2 mom = momentum * mom{t-1} + learning_rate * g_t / sqrt(mean_square + epsilon) delta = - mom 有人能解释一下g_t术语的意思吗?这个公式是在哪里计算的？据我所知，在Nesterov mome

浏览 7提问于2017-03-04得票数 3

1回答

Theano教程中的澄清

、、、、

我正在阅读在上提供的我不确定在梯度下降部分给出的代码。我对for循环有疑问。如果将'param_update‘变量初始化为零。 param_update = theano.shared(param.get_value()*0., broadcastable=param.broadcastable) 然后在剩下的两行中更新它的值。 updates.append((param, param - learning_rate*param_update)) updates.append((param_update, momentum*param_update + (1. - mo

浏览 5提问于2014-08-18得票数 7

回答已采纳

1回答

亚当优化器真的是RMSprop加动量吗？如果是，为什么它没有动量参数？

、、、

这里是一个到tensorflow优化器。在这里，你可以看到，RMSprop以动量为论据，而Adam没有这样做。所以我很困惑。Adam优化假装是具有动量的RMSprop优化，如下所示： Adam = RMSprop +动量但是为什么RMSprop有动量参数，而Adam没有呢？

浏览 6提问于2020-04-23得票数 2

回答已采纳

2回答

Matlab:处理背靠背中接近realmin的减摇鳍性能成本转换

、、、、

我知道，如果一个数字比realmin更接近于零，那么Matlab就会将这个双值转换成一个。我注意到这会造成很大的性能成本。特别是，我使用的梯度下降算法，当接近收敛时，梯度(作为我定制的神经网络的后盾)下降到realmin以下，因此该算法需要很大的性能代价(我假设，是由于幕后的类型转换造成的)。我使用了下面的代码来验证我的梯度矩阵，这样就不会有低于realmin的数字 function mat= validateSmallDoubles(obj, mat, threshold) mat= mat.*(abs(mat)>threshold); end 这是通常的做法

浏览 0提问于2018-03-22得票数 0

回答已采纳

3回答

在tensorflow估计类中，训练一步是什么意思？

、、、、

具体来说，在一步之内，它如何训练模型？梯度下降和反向传播的退出条件是什么？这里的文档：例如： mnist_classifier = tf.estimator.Estimator(model_fn=cnn_model_fn) train_input_fn = tf.estimator.inputs.numpy_input_fn( x={"x": X_train}, y=y_train, batch_size=50, num_epochs=None, shuffle=True) mnist_classi

浏览 0提问于2018-04-11得票数 2

回答已采纳

3回答

什么是神经网络中的动量？

、、、、

在Azure ML中使用“两类神经网络”时，遇到了“动量”性质。根据文档，这还不清楚，它说对于动量，键入要在学习期间应用的值，作为以前迭代中节点的权重。虽然这还不是很清楚。谁能解释一下吗？

浏览 0提问于2020-10-18得票数 8

回答已采纳

1回答

梯度下降和网格搜索在机器学习中的区别是什么？

、、

超参数优化使用两种技术，如网格搜索、或随机搜索。梯度下降主要用于将损失函数降到最小。这里查询是在什么时候我们将使用网格搜索和梯度下降。

浏览 1提问于2019-02-10得票数 2

2回答

如何在TensorFlow中设置权重成本强度？

、

我正尝试在我的深度学习项目中使用TensorFlow。当我使用动量梯度下降时，如何设置权重成本强度？ (此中的λ。)

浏览 3提问于2016-01-25得票数 5

2回答

下降梯度如何知道该调整哪些权重？

、

我在读关于下降梯度的文章。下降梯度如何知道该调整哪些权重？它是否同时适应所有的网络权重？每个权重是否有关联的错误？

浏览 0提问于2020-11-08得票数 3

3回答

TensorFlow -- GradientDescentOptimizer --我们真的在寻找全局最优吗？

、、、

我和tensorflow一起玩了很长一段时间，我有更多的理论问题。通常，当我们训练一个网络时，我们通常使用GradientDescentOptimizer (可能是它的变体，比如adagrad或adam)来最小化损失函数。一般来说，我们试图调整权重和偏差，从而得到这个损失函数的全局最小值。但问题是，我假设这个函数有一个非常复杂的外观，如果你用很多局部优化来绘制它。我想知道的是，我们如何确保梯度下降找到全局最优，并且我们不会立即陷入某个局部最优，而不是远离全局最优？我记得，例如，当您在sklearn中执行聚类时，它通常在集群中心随机初始化的情况下运行几次聚类算法，通过这样做，我们可以确保不被不

浏览 6提问于2016-07-12得票数 9

回答已采纳

1回答

梯度下降-在损失函数中计算了多少值？

我有点搞不懂在神经网络训练中损失函数是如何计算的。有人说，在理论上，当使用网格搜索或蒙特卡罗方法时，我们可以计算所有可能的损失函数值。但显然，这需要太多的资源，并不是神经网络训练的好方法。或者，在使用梯度下降时，我们有可能评估单个值，以知道我们应该往哪个方向去测试下一个值。然后我们可以一步一步地爬下梯子，直到我们达到最优值。 📷 但是另一方面，在下面的PyTorch例子中，据说损失函数是根据所有的预测值和实数来计算的。然后计算梯度。那么，当前面的步骤中的所有损失值都被计算出来时，梯度下降的点是什么呢？ 📷

浏览 0提问于2019-09-23得票数 1

1回答

为什么我的线性回归模型失败，如果我不集中输入数据？

、、、、

我有一个简单的线性回归模型，其中自变量是年份(1970年至今)。当我将输入数据集中在零(即从x中减去平均值)时，我的模型运行得很好，得到了最佳拟合线。但是如果我不把数据集中起来，这个模型就会有无限的损失： model = tf.keras.models.Sequential([ tf.keras.layers.Input(shape=(1,)), tf.keras.layers.Dense(1) ]) model.compile( tf.keras.optimizers.SGD(learning_rate=0.001, momentum=0.9), loss=

浏览 2提问于2021-01-30得票数 0

回答已采纳

2回答

正态方程多元回归分析中的特征标度(归一化)

、、、、

我是做线性回归与多个特点。我决定用正规方程法求线性模型的系数。如果我们使用梯度下降的线性回归多变量，我们通常采取特征缩放，以加快梯度下降收敛。现在，我将使用正规方程公式：我有两个矛盾的信息源。第一章指出法方程不需要特征标度.在另一种情况下，我可以看到，必须进行特性规范化。资料来源：在这两篇文章的结尾，给出了关于正规方程中特征尺度的信息。问题是，在进行正规方程分析之前，我们是否需要进行特征缩放？

浏览 2提问于2015-12-08得票数 1

回答已采纳

2回答

是否总是保证损失函数的收敛性？

、

给定最佳学习率，下列哪一项是正确的？ (i)对于凸损失函数(即碗形)，保证批梯度下降最终收敛到全局最优，而不保证随机梯度下降。 (ii)对于凸损失函数(即具有碗形)，随机梯度下降保证最终收敛到全局最优，而批处理梯度则最终收敛到全局最优。世系不是。 (3)对于凸损失函数(即碗形)，随机梯度下降和分批梯度下降最终收敛到全局最优。 (4)对于凸损失函数(即碗形)，既不保证随机梯度下降，也不保证分批梯度下降收敛到全局最优。哪种选择是正确的，为什么？

浏览 0提问于2020-08-13得票数 4

回答已采纳