梯度下降: thetas不收敛

文章/答案/技术大牛

发布

2回答

、、、、

我正在尝试用Octave计算梯度下降。随着每一次迭代，我的thetas变得指数级大。我不确定是什么问题，因为我正在直接复制另一个函数。theta = 1我使用的是这个公式：我用正规方程算出了最优的thetas是什么，但经过几次迭代，我的thetas就有几千个了。

浏览 18提问于2017-02-20得票数 3

回答已采纳

2回答

是否总是保证损失函数的收敛性？

、

(i)对于凸损失函数(即碗形)，保证批梯度下降最终收敛到全局最优，而不保证随机梯度下降。(4)对于凸损失函数(即碗形)，既不保证随机

浏览 0提问于2020-08-13得票数 4

回答已采纳

1回答

机器学习中的优化方法

、、

我在ML领域没有太多的知识，但从我天真的观点来看，在训练中性点网络时，似乎总是使用梯度下降的一些变体。因此，我想知道为什么没有使用更高级的方法，例如SQP算法或内点方法。

浏览 0提问于2018-02-22得票数 2

2回答

用Java实现梯度下降线性回归

、、

我在这里正确地做了线性回归的批量梯度下降吗？它给出了单个独立变量和截距的预期答案，但不是多个自变量的预期答案。/** * @param alpha Learning Rate * @param independent * @return new Thetaspublic DoubleMatrix1D de

浏览 0提问于2013-02-19得票数 3

回答已采纳

1回答

如何在梯度下降类中初始化代价和迭代数组

、、、、

我试图为多元线性回归的梯度下降函数实现一个类。我想根据迭代次数绘制成本函数。 if cost < s

浏览 2提问于2019-10-23得票数 0

1回答

为什么线搜索不能解决爆炸/消失梯度问题？

、、

梯度消失的问题基本上是，由于我们的步长与梯度成正比，如果梯度很小，可能需要很长时间才能达到局部最小值。那么，我们为什么不采取我们的步长与梯度成比例，而不是做一个线搜索？为什么梯度下降应该起作用的直觉是，如果我们朝着最陡峭的下降方向移动，它应该会使函数变小。然而，还不清楚为什么步长必须与梯度的大小成正比。在关于这一主题的旧纸中，Haskell表明，只要我们进行直线搜索，梯度下降就会收敛</em

浏览 0提问于2020-10-12得票数 1

1回答

代码不收敛于Vanilla梯度下降

、、

我有一个特定的分析梯度，我用来计算我的成本f(x，y)，以及梯度dx和dy。它可以运行，但我不能判断我的梯度下降是否被打破。我应该绘制我的偏导数x和y吗？gamma = 0.00001 # learning ratetheta = np.array([0,5]) #starting value theta = theta - gamma*gradient(theta)

浏览 9提问于2016-09-25得票数 0

回答已采纳

1回答

小批渐变体面和梯度体面之间是否有固定的关系？

、、

对于凸优化，类似于logistic回归。因此，经过10次mini batch gradient decent更新。我可以通过一次gradient decent 更新获得相同的结果吗？我知道mini batch gradient decent有时可以避免局部最优。，但它们之间是否有固定的关系.

浏览 3提问于2014-10-16得票数 4

1回答

为什么Relu比Sigmoid激活函数表现出更好的收敛性？

、

与sigmoid激活函数相比，Relu在梯度下降优化中具有更好的收敛性能。据我所知，当Z接近小于0时，梯度下降的升升太慢，但当z小于0时，relu也有梯度0，那么差别是什么？

浏览 0提问于2021-08-16得票数 0

1回答

Scikit学习中的线性回归和梯度下降？

、、、

在机器学习的coursera课程中，它说梯度下降应该收敛。我们如何在现实世界中使用scikit-learn中的线性回归？或者为什么scikit-learn不在线性回归输出中提供梯度下降信息？

浏览 0提问于2015-12-26得票数 26

回答已采纳

3回答

他在谈论和解释梯度下降，但我不能不注意到一些事情。以我的数学背景，我知道如果我试图找到函数的全局最小/最大值，我必须首先找到所有的临界点。这门课程讨论的是GD的收敛性，但它真的能保证收敛到全球最小值吗？我怎么知道它不会卡在马鞍上？做一次二阶导数测试不会更安全吗？如果我的函数是可微的，它似乎是合理的，它收敛到一个局部最小值，而不是全局最小值。我试图寻找一个更好的解释，但似乎每个人都认为这是理所当然的，毫无疑问。有人能给我指明正确的方向吗？

浏览 0提问于2019-03-26得票数 1

1回答

在机器学习中，收敛速度究竟是指什么？

、、、

我对“收敛速度”一词的理解如下：因此，以收敛速度来衡量：有人能证实我的猜测是否属实，如果不解释它的意思呢？

浏览 0提问于2021-05-11得票数 0

回答已采纳

1回答

Tensorflow:自定义损失函数不提供梯度

、、、

ValueError:没有为任何变量提供梯度:为了简洁起见，我将不会COPY+PASTE IT列出的所有梯度名称 Found 625 images belonging

浏览 2提问于2021-08-26得票数 1

2回答

梯度下降和正态方程不能给出相同的结果，为什么？

、、

我对其中一个使用梯度下降，第二个使用法方程。正常方程给出了正确的结果，但我的梯度下降不是。我不能用这么简单的例子来解释为什么不能工作。因此，我创建了一个虚拟训练集：所以我的假设应该收敛到theta = {1 1}，所以我得到一个简单的下面是比较正态方程和梯度下降的测试

浏览 22提问于2019-08-13得票数 1

回答已采纳

2回答

梯度下降收敛性如何判定收敛性？

、

我通过在线资源(即coursera的机器学习)学习了梯度下降。然而，提供的信息只说重复梯度下降，直到它收敛。if (change_in_costfunction > precisionvalue) {} 或者，我想知道是否另一种确定收敛性的方法是观察系数接近它的真实值change_in_coefficient_j &g

浏览 10提问于2013-06-25得票数 10

回答已采纳

1回答

我应该考虑所有基于梯度下降的算法的特征缩放吗？

在多元线性回归一节的课程机器学习中，Andrew提供了以下关于梯度下降的提示：将特性转换为大约-1 绘图成本与迭代若要确定收敛速度是否太慢(请尝试更大的alpha) 以确定要收敛的迭代次数。这些技巧适用于所有使用不同机器/深度学习算法的梯度下降问题，还是仅适用于多元线性回归？

浏览 0提问于2018-02-27得票数 2

回答已采纳

1回答

保证矩阵求逆更安全的数值方法是什么？

、、

我正在尝试开发一个结构方程模型的算法(在梯度下降的框架下) problem.There是一个参数矩阵B(n*n)，它的所有对角元素都固定为zero.And。在这个问题中，由于目标函数的区域不是整个R^n空间，似乎梯度下降收敛的严格条件将不是satisfied.Standard教科书将假设的目标是在整个R^n空间中有一个区域space.It似乎梯度下降不会有保证的收敛性在迭代算法的更新中，目前我的实现是检查(I-B)是否接近奇异，如果不是，梯度<

浏览 30提问于2019-01-29得票数 1

2回答

机器学习:为什么线性回归成本函数先减后增？

、、

我已经在这个.csv文件中提供的数据上训练了一个多元线性回归模型：我训练它(梯度下降)如下：rd: int = 0 rd =print("\t\tEpoch: " + str(epoch) + "\n\t\tMSE:" + str(mean_squared_error)) 损失/成本函数(均方误差)如预期的那样保持下降

浏览 0提问于2019-10-19得票数 0

2回答

为什么我们需要纪元？

在课程中，没有关于时代的东西，但在实践中，它们随处可见。如果优化器在一次传递中找到了最佳权重，我们为什么还需要它们。为什么模型会有所改进？

浏览 1提问于2017-03-10得票数 4

1回答

为什么我自己动手的拉索给出不同的解决途径，从科学工具包-学习的lasso_path？

、、

我尝试了，并对Lasso类做了一些修改，如下所示： self.eta = lr self.alpha = lamb self.n, self.p

浏览 5提问于2021-11-18得票数 0

点击加载更多