求解VAE中的爆炸梯度

文章/答案/技术大牛

发布

2回答

lstm、gradient、autoencoder、generative-adversarial-network、generative

如何解决深度生成模型(VAE)中的爆炸梯度？注意:数据集在列中包含大量的NaNs值

浏览 70提问于2019-04-19得票数 0

1回答

变分自动编码器-警告:tensorflow:当损失最小化时变量[]不存在渐变

python、tensorflow、keras、deep-learning、autoencoder

我正在尝试实现一个变分自动编码器，使用官方的最后一部分，输入它是mnist数据集的规范化和扁平：outputs = decoder(encoder(inputs)[2]) reconstruction_loss= K.mean(reconstruction_loss + kl_l

浏览 3提问于2021-02-02得票数 0

5回答

Keras -变分自动编码器NaN损失

neural-network、deep-learning、keras、autoencoder

我正在尝试使用我在Keras示例中找到的变分自动编码器的实现()。Autoencoders/models/vae.py:69: UserWarning: Output "dense_5" missing fromIn: data.shapeO

浏览 4提问于2018-04-04得票数 5

1回答

批次归一化能代替RNN中的tanh吗？

rnn、batch-normalization

如果可能的话，这会消除爆炸和消失的梯度问题吗？批量归一化:通过减少内部协变量转移加速深度网络训练tanh的自动差别化也可以用BN来代替。据说它解决了RNN中的爆炸梯度问题，因此它正在被使用。为什么我们需要LSTM单元中的第二个tanh() 考虑到重复的反向传播机制，递归神经网络的一个问题是潜在的爆炸梯度.在加法算子

浏览 0提问于2021-04-05得票数 1

1回答

如何选择固定的caffe值[ clipping_gradients ]

caffe、lstm、recurrent-neural-network

在caffe.proto中 // wheneveroptional float clip_gradients = 35 [default = -1]; 我在设置clipping_gradient时遇到了麻烦，我认为它无论如何都应该是动态的，但是如果我们要选择一个固定的数字我已经尝试了一些固定的选择，但我看不出有太大

浏览 3提问于2017-04-09得票数 0

1回答

我在看博客，作者用“relu”代替“tanh”，为什么？lstm_autoencoder.add(LSTM(timesteps, activation='relu', input_shape=(timesteps, n_features), lstm_autoencoder.add(LSTM(16, activation='relu', return_sequences=True)) lstm_autoencoder.add(

浏览 3提问于2020-06-15得票数 1

回答已采纳

1回答

YOLO v1中梯度爆炸问题的求解

python、pytorch、object-detection、nan、yolo

一开始我使用的是momentum和weight_decay，但是随着时间的推移，训练的损失变成了NaN。据我所知，这是由于梯度爆炸，所以我寻找了一些方法来摆脱这个NaN，然后我忽略了momentum和weight decay。因此，我没有得到任何NaN，但是我的模型不能像我预期的那样收敛。我使用VOC 2007和2012年的数据进行培训，并作为测试集使用VOC 2007测试。如何在训练中摆

浏览 10提问于2021-06-17得票数 2

回答已采纳

1回答

VAE输入数据缩放

artificial-intelligence、scaling、autoencoder、gradient

变分自动编码器(VAE)本身就是一个相当复杂的概念。不出所料，大多数帖子、评论和教程都集中在理论和架构上，但大多数也没有解决数据缩放的主题。在实验VAE时，我遇到了一个(对我来说)令人惊讶的阅读标记，即将数据缩放到VAE的方式非常重要，我无法理解它的解释是什么。让我们假设目标是通过VAE重建正弦波(例如声波)。显然，快速的答案是对数据进行标准化。尽管如此，这仍然导致了以下问题： 1) VAE只能近似

浏览 24提问于2019-03-21得票数 2

1回答

消失爆炸坡度的成因

machine-learning、neural-network、deep-learning

我知道消失和爆炸梯度之间的概念。我想知道这些现象的可能原因。我想我在网上读到了一些关于激活功能的文章。有人能澄清一下吗？任何帮助都将不胜感激。

浏览 0提问于2019-09-02得票数 1

2回答

变分式自动编码器从译码器输入到编码器输出的反向传播

machine-learning、deep-learning、neural-network、artificial-intelligence

我试图深入了解VAE，通过自己来实现它，当将解码器输入层的损耗反向传播到编码器输出层时会遇到困难。L(sigma) = epsilon * dLz(decoder_in)这是一种工作，但从长远来看，编码的分布向量的sigma分量趋向

浏览 4提问于2020-08-05得票数 6

回答已采纳

1回答

激活函数的导数必须在[0,1]的范围内吗？

deep-learning、recurrent-neural-network、activation-function

我发现常见的激活函数的导数在0,1之间。https://ml-cheatsheet.readthedocs.io/en/latest/activation_functions.html 这是RNN中梯度消失的原因。当激活函数首次引入深度学习时，导数保持在0,1的原因是什么？如果我们使用Relu的变体，比如f(x) = max(0，2x)，导数在0,2范围内，那么MLP会发生什么

浏览 12提问于2019-04-30得票数 0

1回答

keras中的LSTM，输入形状，时间步数与nfeature

keras、lstm

我正在研究一个带有keras的预测模型，使用LSTM层，但在理解如何格式化我的输入数据时遇到了问题(该模型确实会返回nan，这也取决于输入格式)。我会试着给出一个清楚的解释！所以它的长度是一个样本(1001) LSTM层的输入形状是3D：(样本，时间步长，特征) 因此，我的输入数据可以在考虑具有1001个要素的1个时间步长样本时重新格式化 X=trainX.reshape(我的问题是，为什么第二个解决方案会返回NaN值(我猜我可能误解了时间步长<em

浏览 41提问于2020-12-09得票数 0

回答已采纳

2回答

Adam优化和梯度裁剪有多相似？

lstm、rnn、training、optimization、gradient-descent

\nabla J(\theta) \odot \nabla J(\theta)) 从方程中可以看出，m是基于指数衰减函数的每个\theta的累积梯度，v做的是类似的事情(某种程度)，但梯度的大小。然后，当我们更新参数\theta时，我们将累积梯度除以累积幅度的平方根，只更新那些没有更新多少的参数，反之亦然。

浏览 0提问于2020-06-27得票数 3

回答已采纳

3回答

从训练数据理解消失梯度和爆炸梯度问题

deep-learning、lstm、gradient-descent

我试图从现实世界的输入输出训练例子中找出“消失梯度和爆炸梯度问题”概念的本质，而不是从激活函数的选择性质出发。有人能直接到一个包含这样的例子的好教程吗？

浏览 0提问于2020-02-09得票数 1

1回答

多层神经网络TensorFlow

tensorflow、neural-network

我试图训练训练四层神经网络在张量流中识别字母表。但是，我的准确率在10%左右，而在相同的数据集上，3层数据集的准确率是90%。对于一些迭代，损失也是nan。我似乎找不到问题。下面是生成计算图的代码。biases_1)我们会感谢你的帮助

浏览 2提问于2018-05-26得票数 1

1回答

如何在clip_grad_norm和BatchNorm2d之间进行选择

pytorch

clip_grad_norm_执行梯度裁剪，以缓解梯度爆炸的问题。BatchNorm2d应用批归一化(出于同样的原因-缓解了渐变问题) 我知道BatchNorm2d有两个需要学习的参数(均值和标准差)。

浏览 11提问于2022-06-21得票数 1

1回答

消失梯度与爆炸梯度作为激活函数？

activation-function、gradient

ReLU用作一个激活函数，用于两个目的：帮助处理消失梯度问题。对于爆炸梯度问题，我们采用梯度裁剪方法，其中我们设置了梯度的最大阈值极限，类似于ReLU设置最小梯度极限为0。以类似的方式，我们也可以使用梯度剪裁作为激活函数吗？如果是的话，是否有使用它的利弊？

浏览 0提问于2020-02-26得票数 2

1回答

梯度裁剪是否降低了RNN的有效性？

deep-learning、neural-network、recurrent-neural-network

为了防止梯度发生爆炸，我们采用梯度裁剪。在元素裁剪中，我们使用一个类似于-10,10的数字.当我们将梯度变到随机数时，为什么它不影响RNN的效率。

浏览 2提问于2020-07-20得票数 0

回答已采纳

1回答

如果我们主要使用RNN上的LSTM来解决梯度消失问题，为什么我们不能只使用RNN的ReLU/leaky ReLU呢？

deep-learning、neural-network、lstm、recurrent-neural-network、relu

我们都知道，当我们使用sigmoid的深度神经网络时，会出现消失梯度问题，如果我们使用relu，它可以解决这个问题，但它会产生死神经元问题，然后通过泄漏relu来解决。如果RNN中存在梯度消失问题，我们为什么要转向LSTM？为什么我们不能使用relu来解决它。

浏览 4提问于2021-01-18得票数 0

3回答

如何防止消失梯度或爆炸梯度？

gradient-descent、deep-learning

是什么导致了消失梯度或爆炸梯度的发生，采取了哪些措施来防止它的发生？

浏览 0提问于2020-04-15得票数 5

点击加载更多