腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
梯度
下降
曲线拟合
、
、
、
、
我写了一些代码,对几个数据点执行
梯度
下降
。由于某些原因,曲线不能正确收敛,但我不知道是什么原因。我总是以一条爆炸的尾巴结束。 我是不是做错了其中一个计算?我尝试将初始权重设置为随机值,但无济于事,有时它会更多地
下降
,但随后又会给我相同的行为。 这是我得到的一个图: ? 以下是通过最小二乘解获得的预期结果: ?
浏览 19
提问于2019-05-20
得票数 1
回答已采纳
2
回答
DNN训练中的无耗氧优化与
梯度
下降
、
、
、
、
对于深度神经网络(DNN)的训练,Hessian-Free (HF)优化技术与
梯度
下降
(例如随机
梯度
下降
(SGD)、间歇
梯度
下降
(SGD)、自适应
梯度
下降
)比较如何?在什么情况下,人们应该更喜欢高频技术,而不是
梯度
下降
技术?
浏览 3
提问于2015-07-22
得票数 2
回答已采纳
2
回答
是否总是保证损失函数的收敛性?
、
(i)对于凸损失函数(即碗形),保证批
梯度
下降
最终收敛到全局最优,而不保证随机
梯度
下降
。(4)对于凸损失函数(即碗形),既不保证随机
梯度
下降
,也不保证分批
梯度
浏览 0
提问于2020-08-13
得票数 4
回答已采纳
1
回答
如果我使用adam优化,当模型的权重更新时?
、
、
、
我知道模型的权重何时更新,同时使用
梯度
下降
(在所有三种类型的GD中),但在我的情况下,我使用的是带有自定义损失(三元组损失)的adam优化,在这种情况下,模型中的权重何时更新?
浏览 0
提问于2019-07-27
得票数 1
1
回答
SkikitLearn学习曲线强烈依赖于MLPClassifier ?的批次大小。或者:如何诊断神经网络的偏差/方差?
、
、
我目前正在使用ScikitLearn中的两个类处理一个分类问题,其中有求解器adam和激活relu。为了探索我的分类器是否存在高偏差或高方差,我用Scikitlearns内置函数绘制了学习曲线: 应该是这样的吗?我认为学习曲线是根据独立于任何批次/时代的训练数据来处理准确性分数的吗?对于批处理方法,我真的可以使用这个内置函数吗?如果是,我应该选择哪个批次大小(训练示例的整批或批次size=数或两者之间的某个部分),以及从中得到什么诊断?或者你通常如何诊断神经网络分类器的偏差/方差问题?
浏览 1
提问于2019-03-26
得票数 1
回答已采纳
1
回答
PyTorch中的SGD优化器实际上是
梯度
下降
算法吗?
、
、
optimizer.step() running_loss += L.item()我的理解正确吗?
浏览 3
提问于2022-06-04
得票数 3
回答已采纳
1
回答
SGDClassifier fit()与partial_fit()
、
、
、
文件中都说,“用随机
梯度
下降
来拟合线性模型。” 关于随机
梯度
下降
,我所知道的是,在一次迭代中更新模型的参数需要一个训练示例(或整个训练的一部分)。
梯度
下降
在每次迭代中使用整个数据集。我要实现法向
梯度
下降
和随机
梯度
下降
,并比较它们所需的时间。如何在SGDClassifier中做到这一点?fit()方法是否为法向
梯度
下降
?
浏览 2
提问于2016-11-18
得票数 0
回答已采纳
1
回答
针对ML初学者的MNIST教程错误
我认为这部分不准确: 我可能错了,但这不应该改变吗?
浏览 4
提问于2016-08-15
得票数 0
1
回答
神经网络优化中的反向传播与学习速率
、
、
、
、
我在研究反向传播是如何工作的?我读到,反向传播被用来在每次迭代后用部分导数找到每个神经元的最优权重,并更新神经元的权重。这两种情况看起来是独立工作的,我的意思是,当反向传播算法本身找到最优权重时,我们不需要一个学习速率参数本身。 我的理解正确吗?如果我错了,请纠正我。
浏览 0
提问于2020-09-19
得票数 0
回答已采纳
1
回答
Adagrad可以用来优化不可微函数吗?
、
我正在读一本书(TensorFlow For Dummies,Matthew Scarpino),这里说: Adagrad方法计算的是次
梯度
而不是
梯度
。次
梯度
是适用于不可微函数的
梯度
的推广。
浏览 0
提问于2019-02-16
得票数 3
回答已采纳
5
回答
梯度
下降
的替代方案是什么?
、
、
、
梯度
下降
存在局部极小的问题。我们需要运行
梯度
下降
指数倍,以求全局极小值。谢谢。
浏览 7
提问于2014-05-08
得票数 12
回答已采纳
1
回答
机器学习中的优化方法
、
、
我在ML领域没有太多的知识,但从我天真的观点来看,在训练中性点网络时,似乎总是使用
梯度
下降
的一些变体。因此,我想知道为什么没有使用更高级的方法,例如SQP算法或内点方法。
浏览 0
提问于2018-02-22
得票数 2
1
回答
如何在scikit中绘制成本与迭代次数?
、
、
、
、
当使用基于
梯度
下降
的算法时,课程机器学习课程中的建议之一是: 调试
梯度
下降
。用x轴上的迭代次数绘制一幅图.现在绘制成本函数,J(θ)在
梯度
下降
的迭代次数上。如果J(θ)增加,那么您可能需要减少α。学习中基于
梯度
下降
的模型是否提供了一种检索成本与迭代次数的机制?
浏览 0
提问于2018-02-28
得票数 8
回答已采纳
1
回答
梯度
下降
与随机
梯度
下降
与小批量
梯度
下降
相对于工作步骤/实例
、
、
我试图了解
梯度
下降
,随机
梯度
下降
和小批
梯度
下降
的工作. 在
梯度
下降
的情况下,在每一步计算整个数据集的
梯度
。所以我想这就像多个任务,在每个任务中,从数据集中查看一个项。最终选择最佳任务的结果。当随机
梯度
下降
时,在每一步得到一个新的随机样本。因此,与上面的多个任务示例不同,只有一个任务,并且在任务的每一步都会选择一个随机样本。我假设所选的新随机样本必须位于比现有样本低的位置?在小型批处理
梯度</
浏览 0
提问于2022-07-29
得票数 0
1
回答
Scikit学习中的线性回归和
梯度
下降
?
、
、
、
在机器学习的coursera课程中,它说
梯度
下降
应该收敛。我们如何在现实世界中使用scikit-learn中的线性回归?或者为什么scikit-learn不在线性回归输出中提供
梯度
下降
信息?
浏览 0
提问于2015-12-26
得票数 26
回答已采纳
2
回答
在
梯度
下降
中,为什么不需要将成本函数的
梯度
归一化为单位向量?
、
、
从我的背景来看,我理解有一个学习速率(α)的目的是将
梯度
的大小(▽J)标准化,这样步长就可以适当地收敛到局部极小值。w:=w −α▽Jw:=w −▽J/||▽J|| 再次,回到我的问题,我不明白为什么
梯度
下降
的变体没有我的想
浏览 0
提问于2022-07-05
得票数 1
1
回答
为什么线搜索不能解决爆炸/消失
梯度
问题?
、
、
梯度
消失的问题基本上是,由于我们的步长与
梯度
成正比,如果
梯度
很小,可能需要很长时间才能达到局部最小值。那么,我们为什么不采取我们的步长与
梯度
成比例,而不是做一个线搜索?为什么
梯度
下降
应该起作用的直觉是,如果我们朝着最陡峭的
下降
方向移动,它应该会使函数变小。然而,还不清楚为什么步长必须与
梯度
的大小成正比。在关于这一主题的旧纸中,Haskell表明,只要我们进行直线搜索,
梯度
下降
就会收敛,他不考虑比例步长的情况。我想的越
浏览 0
提问于2020-10-12
得票数 1
1
回答
支持向量机与GD/SGD?
、
、
、
根据程序的错误程度,程序根据错误进行调整,以便在下一次使用
梯度
下降
进行更好的预测。
浏览 0
提问于2020-02-06
得票数 1
1
回答
gensim Word2Vec -如何应用随机
梯度
下降
?
、
、
、
、
据我所知,批量(香草)
梯度
下降
对所有训练数据进行一次参数更新。随机
梯度
下降
(SGD)允许您更新每个训练样本的参数,帮助模型更快地收敛,但代价是函数损失的高度波动。 ? 批量(香草)
梯度
下降
集batch_size=corpus_size。 SGD设置batch_size=1。和小批量
梯度
下降
集batch_size=k,其中k通常为32,64,128… gensim如何应用SGD或小批量
梯度
下降
?看起来batch_
浏览 32
提问于2019-05-02
得票数 0
回答已采纳
1
回答
在协同过滤的
梯度
下降
中,x和theta是同时更新的吗?
、
、
、
、
他还说,它可以同时完成,并给出了
梯度
下降
算法: ? 我想问x和theta是否同时更新。例如,对于每次迭代:在对x执行单个
梯度
下降
后,我是否使用新的x值重新计算平方误差和,然后对θ执行
梯度
下降
,然后重复直到收敛。或者我在x上执行一次
梯度
下降
,使用相同的平方误差和,对theta也执行
梯度
下降
浏览 37
提问于2020-11-25
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
梯度算法之批量梯度下降,随机梯度下降和小批量梯度下降
梯度下降算法之随机梯度下降
下降方法:坐标下降、梯度下降、次梯度下降
批量梯度下降与随机梯度下降的区别
梯度下降
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券