我正在试图计算PyTorch中变量的梯度。然而,有一个RuntimeError告诉我,输出和梯度的形状必须相同。然而,在我的例子中,输出和梯度的形状是不一样的。shape: grad_output[0] has a shape of torch.Size([164]) and output[0] has a shape of torch.Size
对于一个函数逼近问题,我试图累积梯度,但我发现有些梯度有时是nan(即未定义的),尽管损失总是真实的。我认为这可能是由于数值的不稳定性,我基本上是在寻找一种简单的方法,从计算的梯度中移除nans。(tf.zeros_like(tv.initialized_value()), trainable=False) for tv in tvs]
zero_ops = [tv.assign(