如何在PyTorch中检查所有梯度权重是否为零？

、

我想知道如何检查所有PyTorch神经网络梯度权重，看看它们是否为零，是否继续训练。这可能看起来像，但它实际上是解决陷入局部极小值问题的另一种方法。我不知道我应该添加什么代码，因为这似乎是一个一般性的问题，我甚至不知道如何在PyTorch中访问梯度张量。

浏览 15提问于2021-05-26得票数 0

4回答

火炬中机器学习的步骤

、、

当我们用PyTorch定义我们的模型时。我们运行不同的#epochs。我想知道在时代的迭代中。以下两段不同顺序的代码段之间有什么区别？这两个片段版本是：我的主管为项目提供的代码。

浏览 11提问于2022-05-16得票数 2

2回答

PyTorch:损失保持不变

、、、

我已经用自己实现的损失函数focal_loss_fixed用PyTorch编写了一段代码。但我的损失价值在每个时代之后都是固定的。看起来权重没有更新。

浏览 2提问于2018-10-16得票数 1

1回答

Torch:不更新变量的反向传播梯度

、、、

在pytorch中，有没有一种有效的方法来反向传播梯度，而不是更新它们对应的变量？在更新过程中，每次创建一个权重副本似乎太昂贵了。下面的操作似乎花费了太多时间，因为每次更新权重时，它都需要复制模型： … self.model = MyModel()

浏览 0提问于2020-03-20得票数 2

1回答

消失梯度:检查输出梯度

、、、、

对于前馈网络或RNN，理论上我们应该检查输出梯度随时间变化的权重，以检查它是否消失为零。在下面的代码中，我不确定是否应该将输入'xtr‘输入到定义在权重上的后端函数中。bias我看过一些文章，演示如何获得输出wrt \textit{inputs}的梯度</em

浏览 0提问于2022-01-30得票数 0

回答已采纳

1回答

Numpy性能优于Tensorflow和Py手电筒，具有相同的超参数

、、、、

我为制作了3个神经网络，每个神经网络都在Numpy、TensorFlow和Py手电筒中。

浏览 2提问于2017-04-30得票数 2

1回答

PyTorch:如何检查某些权重在训练过程中没有发生变化？

如何在PyTorch中检查某些权重在训练过程中是否未更改？据我所知，一种选择是在某些时期丢弃模型权重，并检查它们是否在权重上迭代更改，但也许还有更简单的方法？

浏览 3提问于2020-09-19得票数 3

2回答

在TensorFlow或PyTorch中仅创建和训练指定的权重

、、、、

我想知道在TensorFlow、PyTorch或其他库中是否有一种方法可以选择性地连接神经元。我想要在每一层中建立一个具有非常多神经元的网络，但层之间的连接很少。我实现了一个自定义keras层，使用的方法基本上与问题中的方法相同-本质上是通过创建一个密集层，其中除了指定的权重之外，所有的权重在训练和评估中都被忽略。这满足了我想要做的一部分，不训练指定的权重，也不使用它们进行预测。但是，问题是我仍然浪费内存保存未训练的权重，并且浪费时间

浏览 3提问于2018-10-18得票数 0

1回答

TensorFlow / PyTorch:外部测量的损耗梯度

、、、、

其思想是将神经网络训练为未知非线性函数F的逆F^(-1)，这意味着损失L是在F的输出处计算的，但是由于F的梯度不知道，反传播不能直接用于计算梯度和更新NN权值。在计算TensorFlow或PyTorch中的梯度时，是否可以使用没有直接连接到神经网络的损失函数L？或承担任何其他软件(Matlab、C等)所获得的损失。用它进行反向传播？据我所知，Keras keras.backend.gradients只允许计算相对于连通权重的梯度，否则

浏览 2提问于2020-01-16得票数 1

1回答

TensorFlow:渐变中的“无”可以自动替换为零或者在优化器中使用吗？

、

我用tf.stop_gradient()关闭了神经网络中一些权重的梯度计算。不幸的是，tf.GradientTape().gradient()将这些权重的梯度分配为None，这并不适用于optimizer.apply_gradients。解决办法是在之后为这些渐变分配零。有可能让tf.GradientTape().gradient()自动将None替换为零吗？或者，是否有一种方法可以让优化器使用渐变列表中的None？

浏览 6提问于2022-05-03得票数 0

回答已采纳

1回答

匹配PyTorch* w/ CNTK (VGG on CIFAR)*

、、、、

我试图了解PyTorch是如何工作的，并希望复制CNN关于CIFAR的简单培训。脚本经过168秒的训练(10次)后，达到了0.76的精度，这与我的脚本类似( 153秒后的0.75精度)。我能想到的原因是：也许在默认情况下，偏见是在

浏览 7提问于2017-08-17得票数 1

1回答

如何在角角模型中设定一个常数作为权重？

、、、

在我的模型的第一层，我希望一些权重是常数零。在梯度计算中，这些权重应该是梯度=零(因为链规则中的最后一个项对应于权值，对于一个常数来说是0)。model, inputs, targets)但在梯度计算中，权重tf.constant(0)的梯度

浏览 0提问于2019-01-09得票数 3

回答已采纳

1回答

是否有与Pytorch的反向()等价的Tensorflow？试图将梯度返回到TF模型中

、、、、

我正在尝试实现一个分离学习模型，在这个模型中，我在客户端上的TF模型接收数据并生成中间输出。这个中间输出将被发送到运行Pytorch模型的服务器，该服务器将其作为输入，并将损失降到最低。然后，我的服务器将返回客户端梯度到TF模型的TF模型，以更新其权重。我如何得到我的TF模型，用从服务器发送回来的梯度更新它的权重？如何在Tensorflow客户端实现相同的功能？我认为这是因为磁带上下文中没有计算，而client_grad只是一个包含梯度的张量，并且没

浏览 4提问于2020-09-10得票数 2

1回答

net.zero_grad() vs optim.zero_grad()

、

他们提到在训练参数梯度为零时需要包括optim.zero_grad()。我的问题是:我可以做同样的net.zero_grad()，这会有同样的效果吗？还是有必要做optim.zero_grad()。如果我什么也不做，那么梯度就会累积起来，但这到底意味着什么呢？他们被加进去了吗？换句话说，做optim.zero_grad()和net.zero_grad()有什么区别。我问是因为他们使用net.zero_grad()，这是我第一次看到，这是一种强化学习算法的实现，在这种算法中，人们必须特别小心梯度</

浏览 1提问于2020-05-19得票数 15

回答已采纳

1回答

Heavside函数(单位/阶跃函数)导数

、、、、

我是机器学习的新手，正在学习如何编写感知器。重边函数的导数是多少？对于上下文，我使用感知器作为伪SVM，这样我就可以对数据点进行分类。我假设它是0，但是基于教程，我看到人们使用1。为什么这是有效的。另外，有没有可能使用sigmoid类型的激活函数，然后通过重边函数传递输出，因此我可以求sigmoid的导数？谢谢。

浏览 273提问于2020-07-14得票数 0

2回答

如何在tensorflow的MLP中实现最大范数约束？

、

如何在tensorflow中对MLP中的权重实现最大范数约束？Hinton和Dean在他们的关于黑暗知识的工作中描述的那种。也就是说，tf.nn.dropout是否默认实现权重约束，或者我们是否需要显式实现它，如 “如果这些网络共享存在的隐藏单元的相同权重。我们使用标准的随机梯度下降过程在小批量训练案例上训练辍学神经网络，但我们修改了通常用于防止权重增长过大的惩罚项。我们不是惩罚

浏览 2提问于2016-06-14得票数 7

4回答

为什么logistic回归的权重参数被初始化为零？

、、、

我已经看到神经网络的权值被初始化为随机数，所以我很好奇为什么逻辑回归的权重被初始化为零？

浏览 0提问于2017-09-10得票数 13

回答已采纳

1回答

THCudaTensor_data (和一般的THC )是做什么的？

、

我正在检查的程序使用pytorch加载权重，cuda代码用权重进行计算。我对THC库的理解是如何在pytorch后端(也许是torch？)实现张量。(从代码中使用它的方式来看，它似乎是用来将py手电筒的张量转换为cuda中的数组的。如果是这样的话，那么函数会保留所有元素和数组的长度吗？)

浏览 0提问于2018-10-08得票数 1

回答已采纳

1回答

获取Pytorch* autograd用于计算梯度的精确公式*

、、

我已经通过自定义模块的参数手动计算了反向传播的正确公式，我希望查看它们是否与autograd内部用于计算梯度的公式匹配。有没有办法看到这一点？谢谢编辑(添加测试用例) :- 我有一个复数仿射层，其中权重和输入是复值矩阵，操作是权重和输入矩阵的矩阵乘法。我计算了这一层的反向传播公式，假设我们有来自更高层的传入梯度。公式为dL/dI(n) =(hermitian( W(n) .matmul(dL/dI(n+1))，其中I(n)和W(N)是第n层的输入和权重</e

浏览 45提问于2020-09-11得票数 1

3回答

Tensorflow梯度磁带的用途是什么？

、

我观看了Tensorflow开发人员关于在Tensorflow中急切执行的峰会视频，演示者介绍了“梯度磁带”。现在我知道Gradient Tape跟踪TF模型中发生的自动微分。有人能解释一下梯度磁带是如何作为诊断工具使用的吗？为什么有人会使用渐变胶带而不是Tensorboard的权重可视化。因此，我得到的结论是，模型的自动区分是计算每个节点的梯度--这意味着在给定一批数据的情况下，调整每个节点的权重和偏差。这就是学习的过程。但我的印象是，我实际上可以使用tf.keras.callback

浏览 2提问于2018-12-28得票数 76

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

火炬中机器学习的步骤

PyTorch:损失保持不变

Torch:不更新变量的反向传播梯度

消失梯度:检查输出梯度

Numpy性能优于Tensorflow和Py手电筒，具有相同的超参数

PyTorch:如何检查某些权重在训练过程中没有发生变化？

在TensorFlow或PyTorch中仅创建和训练指定的权重

TensorFlow / PyTorch:外部测量的损耗梯度

TensorFlow:渐变中的“无”可以自动替换为零或者在优化器中使用吗？

匹配PyTorch* w/ CNTK (VGG on CIFAR)*

如何在角角模型中设定一个常数作为权重？

是否有与Pytorch的反向()等价的Tensorflow？试图将梯度返回到TF模型中

net.zero_grad() vs optim.zero_grad()

Heavside函数(单位/阶跃函数)导数

如何在tensorflow的MLP中实现最大范数约束？

为什么logistic回归的权重参数被初始化为零？

THCudaTensor_data (和一般的THC )是做什么的？

获取Pytorch* autograd用于计算梯度的精确公式*

Tensorflow梯度磁带的用途是什么？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐