腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
libtorch-C++
中
裁剪
梯度
的
范数
有没有什么API可以
裁剪
网络
的
渐变?或者,我需要发展自己? 最佳,Afshin
浏览 19
提问于2019-03-12
得票数 1
回答已采纳
1
回答
在
keras
中
裁剪
adam优化器
的
奖励
、
、
、
、
我想把奖励剪辑
在
角纸上。如下所示:sgd = optimizers.SGD(lr=0.01, clipvalue=0.5) 什么是剪裁规范和
裁剪
价值另外,如何才能实现对亚当
的
奖励?你能告诉我怎么做吗?
浏览 0
提问于2018-10-03
得票数 9
1
回答
深度学习对差别化隐私
的
敏感性
、
在
差别私有深度学习
中
,灵敏度由
裁剪
梯度
范数
(见阿巴迪等人
的
S论文)决定。当
裁剪
梯度
范数
为C时,灵敏度为C。为什么敏感
的
C?我认为敏感性应该是2C。
浏览 0
提问于2020-08-06
得票数 2
1
回答
tf.clip_by_average_norm与tf.clip_by_norm
在
tensorflow
中
的
差异
我不完全确定两个
梯度
裁剪
操作符clip_by_average_norm和clip_by_norm之间
的
区别。从文档
中
可以看出,clip_by_norm使用
的
是l2norm而不是l2norm_avg。我明白
梯度
的
L2-
范数
是什么,但是“平均L2-
范数
”也对应什么? 文献参考
浏览 1
提问于2016-12-05
得票数 1
回答已采纳
1
回答
自动编码器训练时非常奇怪
的
丢失尖峰
、
、
、
为此,我刚刚建立了一个简单
的
线性模型,
在
每一层中都使用带有编码器和对称解码器
的
Tanh函数。我得到
的
损失函数“sqrt(MSE)”
在
不规则间隔
的
大尖峰。(Batch_Size = 6000) clip_grad_norm_(model.parameters(), max_norm = 0.5)。
浏览 4
提问于2021-08-26
得票数 0
2
回答
如果我们可以剪辑
梯度
在
WGAN,为什么麻烦WGAN-GP?
、
、
在
原论文中,由于1-Lipschitiz约束,WGAN是用
梯度
惩罚来实现
的
.但是像Keras这样
的
包可以将
梯度
范数
裁剪
到1(根据定义,这相当于1-Lipschitiz约束),那么我们为什么要费心去惩罚
梯度
呢为什么我们不直接剪下
梯度
呢?
浏览 2
提问于2019-11-06
得票数 5
回答已采纳
1
回答
keras
中
的
梯度
裁剪
、
我有一个使用Keras
的
完全实现
的
LSTM RNN,我想使用
梯度
范数
限制为5
的
梯度
裁剪
(我正在尝试复制一篇研究论文)。关于实现神经网络,我还是个初学者,我该如何实现呢?只是(我使用
的
是rmsprop优化器): model.compile(optimizer=sgd,
浏览 59
提问于2017-12-13
得票数 3
1
回答
使用LSTM自动编码器时获得NaN误差
、
、
、
、
利用Keras对模型进行了训练,得到了NaN误差,得到了解码后得到
的
误差。这是我
的
密码; from numpy import array # demonstrate recreation我得到
的
输
浏览 0
提问于2019-06-21
得票数 0
回答已采纳
1
回答
如何在Keras
中
缩放
梯度
范数
、
、
在
MuZero
的
伪代码
中
,它们执行以下操作:从关于这意味着什么,我了解到这很可能是一个
梯度
范数
缩放如何对Keras
中
的
隐藏状态进行
梯度
范数
缩放(将
梯度
范数
裁剪
到特定长度)?但我不认为这是可行
的
,因为
在
使用优化器之前,我正在缩放
梯度</
浏览 0
提问于2020-01-06
得票数 0
回答已采纳
1
回答
WGAN-GP
中
的
梯度
惩罚
、
在
Wasserstein
的
改进训练
中
,推论1说f*
在
Pr和Pg下几乎处处都有
梯度
范数
1,并且
在
损失函数
中
增加了
梯度
惩罚,使
梯度
接近于1。我得到了这是一种替代权
裁剪
的
方法,并使用了1 Lipschitz不等式。 但是我不明白为什么我们把
梯度
限制
在
接近1。如果我们
的
生成器表现良好,那么我们可能需要我们
的
梯度
浏览 5
提问于2022-03-15
得票数 0
1
回答
RNN
的
tf.clip_by_value和tf.clip_by_global_norm之间
的
区别以及如何确定剪裁
的
最大值?
、
、
想要了解
在
TensorFlow
中
实现渐变
裁剪
时tf.clip_by_value和tf.clip_by_global_norm
的
角色差异。哪一个是首选
的
,如何确定要
裁剪
的
最大值?
浏览 0
提问于2017-06-28
得票数 22
回答已采纳
1
回答
向Tensorflow contrib.learn.Estimator添加L2正则化
、
、
我想将L2正则化添加到自定义contrib.learn估计器
中
,但我不知道如何轻松完成。 有没有办法将L2正则化添加到我忽略
的
现有估计器(例如DNNClassfier)
中
?我想要将L2
范数
添加到我
的
自定义估计器
中
的
唯一方法是编写一个新
的
head,并更改成本函数。但我想对于这个常见
的
问题,有一个更简单、更优雅
的
解决方案。有没有人有同样
的
问题?我可以使用gradient_clip_norm来
裁剪
浏览 4
提问于2017-03-27
得票数 0
1
回答
为什么我们
在
执行RNN时clip_by_global_norm要获取
梯度
我
在
RNN上跟踪,
在
第177行执行以下代码。max_grad_norm
的
价值是如何决定
的
?
浏览 0
提问于2017-04-22
得票数 8
回答已采纳
1
回答
pytorch是否检测到溢出或下溢?
由于深度神经网络和RNN涉及多次乘法,我猜上溢或下溢会频繁出现。 我只是好奇深度学习库是检测溢出或下溢操作并显示任何警告消息,还是直接忽略它。
浏览 27
提问于2021-02-08
得票数 0
1
回答
梯度
裁剪
是否降低了RNN
的
有效性?
、
、
为了防止
梯度
发生爆炸,我们采用
梯度
裁剪
。
在
元素
裁剪
中
,我们使用一个类似于-10,10
的
数字.当我们将
梯度
变到随机数时,为什么它不影响RNN
的
效率。
浏览 2
提问于2020-07-20
得票数 0
回答已采纳
2
回答
在
PyTorch
中
为批次
中
的
每个单独样本计算
梯度
、
、
我正在尝试实现一个版本
的
差分私有随机
梯度
下降(例如,),如下所示:x # i
浏览 0
提问于2018-12-16
得票数 5
1
回答
如何将mlflow与tensorflow对象检测api集成
、
、
、
将mlflow.tensorflow.autolog()添加到中会记录一些参数,如全局_
范数
/剪裁_
梯度
_
范数
、全局_
范数
/
梯度
_
范数
、全局_step/秒、learning_rate_1、loss_1、然而,更重要
的
指标,如地图,精确性,召回并没有被记录在mlfow
中
。
浏览 4
提问于2019-10-18
得票数 3
4
回答
如何在火炬中进行
梯度
剪裁?
、
、
、
、
什么是正确
的
方式来执行
梯度
剪裁
在
火把? 我有一个爆炸性
梯度
问题。
浏览 0
提问于2019-02-15
得票数 80
回答已采纳
1
回答
Tensorflow能在矩阵2-
范数
上取
梯度
吗?
、
通常,我们
在
Tensorflow
中
采用
的
矩阵
范数
是Frobenius
范数
,它易于计算,易于理解,例如Bayesian观点。但在许多情况下,这是最大
的
单一价值问题。
在
Tensorflow
中
优化是可能
的
吗?这取决于tensorflow能否对矩阵2-
范数
采取
梯度
。
浏览 1
提问于2018-11-15
得票数 0
2
回答
keras模型
中
的
NaN损失
、
、
、
我有大约100 k“数据批”
的
顺序数据,我正在运行一个相当复杂
的
递归模型(120 K参数)。过了一段时间(这似乎是随机
的
),损失变成了nan。我尝试了以下方法 还有什么我可以尝试调试
的
吗?
浏览 0
提问于2019-05-19
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
在Mix滤镜大师中裁剪图片的方法介绍
在连续学习中梯度情景记忆
在seaborn中设置和选择颜色梯度
知识卡片 反向传播中的梯度
机器学习中的梯度下降法
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券