腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
求解
VAE
中
的
爆炸
梯度
lstm
、
gradient
、
autoencoder
、
generative-adversarial-network
、
generative
如何解决深度生成模型(
VAE
)
中
的
爆炸
梯度
? 注意:数据集在列
中
包含大量
的
NaNs值
浏览 70
提问于2019-04-19
得票数 0
1
回答
变分自动编码器-警告:tensorflow:当损失最小化时变量[]不存在渐变
python
、
tensorflow
、
keras
、
deep-learning
、
autoencoder
我正在尝试实现一个变分自动编码器,使用官方
的
最后一部分,输入它是mnist数据集
的
规范化和扁平:outputs = decoder(encoder(inputs)[2]) reconstruction_loss= K.mean(reconstruction_loss + kl_l
浏览 3
提问于2021-02-02
得票数 0
5
回答
Keras -变分自动编码器NaN损失
neural-network
、
deep-learning
、
keras
、
autoencoder
我正在尝试使用我在Keras示例中找到
的
变分自动编码器
的
实现()。Autoencoders/models/
vae
.py:69: UserWarning: Output "dense_5" missing fromIn: data.shapeO
浏览 4
提问于2018-04-04
得票数 5
1
回答
批次归一化能代替RNN
中
的
tanh吗?
rnn
、
batch-normalization
如果可能的话,这会消除
爆炸
和消失
的
梯度
问题吗?批量归一化:通过减少内部协变量转移加速深度网络训练tanh
的
自动差别化也可以用BN来代替。据说它解决了RNN
中
的
爆炸
梯度
问题,因此它正在被使用。为什么我们需要LSTM单元
中
的
第二个tanh() 考虑到重复
的
反向传播机制,递归神经网络
的
一个问题是潜在
的
爆炸
梯度
.在加法算子
浏览 0
提问于2021-04-05
得票数 1
1
回答
如何选择固定
的
caffe值[ clipping_gradients ]
caffe
、
lstm
、
recurrent-neural-network
在caffe.proto
中
// wheneveroptional float clip_gradients = 35 [default = -1]; 我在设置clipping_gradient时遇到了麻烦,我认为它无论如何都应该是动态
的
,但是如果我们要选择一个固定
的
数字我已经尝试了一些固定
的
选择,但我看不出有太大
浏览 3
提问于2017-04-09
得票数 0
1
回答
为什么LSTM自动编码器使用“relu”作为其激活功能?
deep-learning
、
lstm
、
autoencoder
我在看博客,作者用“relu”代替“tanh”,为什么?lstm_autoencoder.add(LSTM(timesteps, activation='relu', input_shape=(timesteps, n_features), lstm_autoencoder.add(LSTM(16, activation='relu', return_sequences=True)) lstm_autoencoder.add(
浏览 3
提问于2020-06-15
得票数 1
回答已采纳
1
回答
YOLO v1
中
梯度
爆炸
问题
的
求解
python
、
pytorch
、
object-detection
、
nan
、
yolo
一开始我使用
的
是momentum和weight_decay,但是随着时间
的
推移,训练
的
损失变成了NaN。据我所知,这是由于
梯度
爆炸
,所以我寻找了一些方法来摆脱这个NaN,然后我忽略了momentum和weight decay。因此,我没有得到任何NaN,但是我
的
模型不能像我预期
的
那样收敛。我使用VOC 2007和2012年
的
数据进行培训,并作为测试集使用VOC 2007测试。 如何在训练
中
摆
浏览 10
提问于2021-06-17
得票数 2
回答已采纳
1
回答
VAE
输入数据缩放
artificial-intelligence
、
scaling
、
autoencoder
、
gradient
变分自动编码器(
VAE
)本身就是一个相当复杂
的
概念。不出所料,大多数帖子、评论和教程都集中在理论和架构上,但大多数也没有解决数据缩放
的
主题。在实验
VAE
时,我遇到了一个(对我来说)令人惊讶
的
阅读标记,即将数据缩放到
VAE
的
方式非常重要,我无法理解它
的
解释是什么。让我们假设目标是通过
VAE
重建正弦波(例如声波)。显然,快速
的
答案是对数据进行标准化。尽管如此,这仍然导致了以下问题: 1)
VAE
只能近似
浏览 24
提问于2019-03-21
得票数 2
1
回答
消失
爆炸
坡度
的
成因
machine-learning
、
neural-network
、
deep-learning
我知道消失和
爆炸
梯度
之间
的
概念。我想知道这些现象
的
可能原因。我想我在网上读到了一些关于激活功能
的
文章。有人能澄清一下吗?任何帮助都将不胜感激。
浏览 0
提问于2019-09-02
得票数 1
2
回答
变分式自动编码器从译码器输入到编码器输出
的
反向传播
machine-learning
、
deep-learning
、
neural-network
、
artificial-intelligence
我试图深入了解
VAE
,通过自己来实现它,当将解码器输入层
的
损耗反向传播到编码器输出层时会遇到困难。L(sigma) = epsilon * dLz(decoder_in)这是一种工作,但从长远来看,编码
的
分布向量
的
sigma分量趋向
浏览 4
提问于2020-08-05
得票数 6
回答已采纳
1
回答
激活函数
的
导数必须在[0,1]
的
范围内吗?
deep-learning
、
recurrent-neural-network
、
activation-function
我发现常见
的
激活函数
的
导数在0,1之间。https://ml-cheatsheet.readthedocs.io/en/latest/activation_functions.html 这是RNN
中
梯度
消失
的
原因。当激活函数首次引入深度学习时,导数保持在0,1
的
原因是什么?如果我们使用Relu
的
变体,比如f(x) = max(0,2x),导数在0,2范围内,那么MLP会发生什么
浏览 12
提问于2019-04-30
得票数 0
1
回答
keras
中
的
LSTM,输入形状,时间步数与nfeature
keras
、
lstm
我正在研究一个带有keras
的
预测模型,使用LSTM层,但在理解如何格式化我
的
输入数据时遇到了问题(该模型确实会返回nan,这也取决于输入格式)。 我会试着给出一个清楚
的
解释!所以它
的
长度是一个样本(1001) LSTM层
的
输入形状是3D:(样本,时间步长,特征) 因此,我
的
输入数据可以在考虑具有1001个要素
的
1个时间步长样本时重新格式化 X=trainX.reshape(我
的
问题是,为什么第二个解决方案会返回NaN值(我猜我可能误解了时间步长<em
浏览 41
提问于2020-12-09
得票数 0
回答已采纳
2
回答
Adam优化和
梯度
裁剪有多相似?
lstm
、
rnn
、
training
、
optimization
、
gradient-descent
\nabla J(\theta) \odot \nabla J(\theta)) 从方程
中
可以看出,m是基于指数衰减函数
的
每个\theta
的
累积
梯度
,v做
的
是类似的事情(某种程度),但
梯度
的
大小。然后,当我们更新参数\theta时,我们将累积
梯度
除以累积幅度
的
平方根,只更新那些没有更新多少
的
参数,反之亦然。
浏览 0
提问于2020-06-27
得票数 3
回答已采纳
3
回答
从训练数据理解消失
梯度
和
爆炸
梯度
问题
deep-learning
、
lstm
、
gradient-descent
我试图从现实世界
的
输入输出训练例子
中
找出“消失
梯度
和
爆炸
梯度
问题”概念
的
本质,而不是从激活函数
的
选择性质出发。 有人能直接到一个包含这样
的
例子
的
好教程吗?
浏览 0
提问于2020-02-09
得票数 1
1
回答
多层神经网络TensorFlow
tensorflow
、
neural-network
我试图训练训练四层神经网络在张量流
中
识别字母表。但是,我
的
准确率在10%左右,而在相同
的
数据集上,3层数据集
的
准确率是90%。对于一些迭代,损失也是nan。我似乎找不到问题。下面是生成计算图
的
代码。biases_1)我们会感谢你
的
帮助
浏览 2
提问于2018-05-26
得票数 1
1
回答
如何在clip_grad_norm和BatchNorm2d之间进行选择
pytorch
clip_grad_norm_执行
梯度
裁剪,以缓解
梯度
爆炸
的
问题。BatchNorm2d应用批归一化(出于同样
的
原因-缓解了渐变问题) 我知道BatchNorm2d有两个需要学习
的
参数(均值和标准差)。
浏览 11
提问于2022-06-21
得票数 1
1
回答
消失
梯度
与
爆炸
梯度
作为激活函数?
activation-function
、
gradient
ReLU用作一个激活函数,用于两个目的:帮助处理消失
梯度
问题。 对于
爆炸
梯度
问题,我们采用
梯度
裁剪方法,其中我们设置了
梯度
的
最大阈值极限,类似于ReLU设置最小
梯度
极限为0。以类似的方式,我们也可以使用
梯度
剪裁作为激活函数吗?如果是的话,是否有使用它
的
利弊?
浏览 0
提问于2020-02-26
得票数 2
1
回答
梯度
裁剪是否降低了RNN
的
有效性?
deep-learning
、
neural-network
、
recurrent-neural-network
为了防止
梯度
发生
爆炸
,我们采用
梯度
裁剪。在元素裁剪
中
,我们使用一个类似于-10,10
的
数字.当我们将
梯度
变到随机数时,为什么它不影响RNN
的
效率。
浏览 2
提问于2020-07-20
得票数 0
回答已采纳
1
回答
如果我们主要使用RNN上
的
LSTM来解决
梯度
消失问题,为什么我们不能只使用RNN
的
ReLU/leaky ReLU呢?
deep-learning
、
neural-network
、
lstm
、
recurrent-neural-network
、
relu
我们都知道,当我们使用sigmoid
的
深度神经网络时,会出现消失
梯度
问题,如果我们使用relu,它可以解决这个问题,但它会产生死神经元问题,然后通过泄漏relu来解决。如果RNN
中
存在
梯度
消失问题,我们为什么要转向LSTM?为什么我们不能使用relu来解决它。
浏览 4
提问于2021-01-18
得票数 0
3
回答
如何防止消失
梯度
或
爆炸
梯度
?
gradient-descent
、
deep-learning
是什么导致了消失
梯度
或
爆炸
梯度
的
发生,采取了哪些措施来防止它
的
发生?
浏览 0
提问于2020-04-15
得票数 5
点击加载更多
相关
资讯
机器学习中的梯度下降法
机器学习中的数学(1)-梯度下降法
机器学习中梯度下降法和牛顿法的比较
神经网络中的梯度优化算法研究与改进
分析梯度下降的轨迹,更好地理解深度学习中的优化问题
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
语音识别
活动推荐
运营活动
广告
关闭
领券