腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(2605)
视频
沙龙
1
回答
使用
DQN
时
epsilon
贪婪
策略
中
的
退火
epsilon
当
使用
DQN
时
,有人告诉我在学习之前最好填满整个回放内存。如果我
使用
epsilon
-greedy
策略
,我想知道如何
退火
epsilon
。我应该在10000步
中
还是在学习开始之后开始
退火
epsilon
?提前谢谢。
浏览 10
提问于2018-01-29
得票数 1
回答已采纳
1
回答
如何在张量流
中
调整tf-agent和
策略
的
超参数?
、
、
、
我已经设置了一个包装在张量流类
中
的
python环境,使其成为一个张量流环境。然后,我按照here列出
的
协作笔记本设置学习。目前,我正在
使用
dqn
和增强剂。 设置运行良好,结果与预期一致。现在我想进入超参数
的
调整,如衰变
的
epsilon
贪婪
,权重等。 我需要一些关于如何
使用
如何访问这些超参数
的
文档
的
指针。
浏览 25
提问于2020-10-28
得票数 1
回答已采纳
2
回答
最优
epsilon
(ϵ-
贪婪
)值
、
、
ϵ-
贪婪
政策我
的
实现
使用
了
贪婪
的
ϵ
策略
,但在决定
epsilon
值
时
,我感到不知所措。
epsilon
应该以算法访问给定(状态、操作)对
的
次数为界,还是应该被执行
的
迭代次数限制?我
的
建议
浏览 4
提问于2014-04-02
得票数 20
回答已采纳
1
回答
DQN
的
最后一集训练和测试有什么区别?
、
、
、
DQN
训练模式
的
最后一集跑与测试跑有什么区别? 有什么不同,比训练和调整超参数,我们测试一集,没有任何探索?这意味着测试模式类似于n+1
中
的
训练模式,而不需要探索(而我们为n集进行训练),对吗?为什么在
DQN
的
一些测试代码
中
,他们测试多集?
浏览 0
提问于2018-09-29
得票数 1
回答已采纳
1
回答
Q学习
中
的
探索:
Epsilon
贪婪
与探索功能
、
我正在努力了解如何确保我们
的
代理在开发它所知道
的
信息之前,对状态空间进行足够
的
探索。我知道,我们
使用
贪婪
的
epsilon
方法和一个衰败
的
epsilon
来实现这一点。然而,我遇到了另一个概念,即
使用
探索函数来确保我们
的
代理探索状态空间。用
Epsilon
贪婪
的
Q学习sample = R(s,a,s') + \gamma \max_{a
浏览 0
提问于2021-05-05
得票数 3
回答已采纳
2
回答
Epsilon
贪婪
Q学习
中
的
epsilon
和学习率衰减
、
、
我知道
epsilon
标志着探索和开发之间
的
权衡。一开始,你希望
epsilon
很高,这样你就能大踏步地学到东西。随着你了解未来
的
奖励,
epsilon
应该会衰减,这样你就可以利用你发现
的
更高
的
Q值。然而,在随机环境
中
,我们
的
学习率是否也会随着时间
的
推移而下降?所以我看到
的
帖子只讨论
epsilon
衰变。 我们如何设置
epsilon
和alpha,以使值收敛?
浏览 1
提问于2018-11-08
得票数 12
回答已采纳
1
回答
Python
中
带有Tensorflow
的
Cart极
的
深度Q-学习
、
、
、
我正在尝试实现经典
的
深度Q学习算法来解决openAI健身房
的
Cart极游戏: 首先,我创建了一个生成随机权重
的
代理。因此,我决定实现一个简单
的
DQN
,只有4个权重和2个偏见,并让代理学习这个游戏
的
时间。权值将在开始
时
随机初始化,并在代理执行步骤
时
使用
反向传播来更新它们。我
使用
Epsilon
贪婪
策略
使代理在开始
时
进行探索,然后利用Q值。然而,与随机
浏览 4
提问于2020-08-09
得票数 0
回答已采纳
1
回答
Keras模型在加载权重后似乎未经过训练
我正在尝试在Keras中保存和恢复给定模型
的
权重。我成功地保存了权重,
使用
model.save_weights(文件路径,...)而且权重也是实际加载
的
。我可以通过在保存和恢复之后将model.get_weights()保存到一个文件
中
来确认这一点,并对我以这种方式接收
的
文件进行区分。 然而,我
的
模型和一开始一样糟糕。我是不是遗漏了什么?
浏览 28
提问于2019-01-13
得票数 0
1
回答
强化学习
中
探索/利用
的
最佳实践
、
我
的
问题是在我对PyTorch
DQN
教程
中
的
代码进行检查后提出
的
,但随后又提到了强化学习:强化学习中最佳探索/利用
的
最佳实践是什么?在
DQN
教程
中
,steps_done变量是一个全局变量,EPS_DECAY = 200。这可能适用于本教程中介绍
的
CartPole问题-早期
的
片段可能非常短,任务相当简单-但对于需要更多探索
的
更复杂
的
问题呢?例如,如果我们有一个40,000
浏览 22
提问于2019-02-04
得票数 0
回答已采纳
1
回答
Keras模型: RL代理
的
输入形状尺寸误差
、
、
、
、
我
的
目标是开发一个
DQN
代理,它将根据特定
的
策略
/
策略
选择其操作。我以前
使用
过OpenAi健身房环境,但现在我想创建自己
的
RL环境。在此阶段,代理应选择随机动作或根据深度神经网络(在类
DQN
中
定义)所作
的
预测选择他
的
行为。class
DQN
():
浏览 1
提问于2020-03-19
得票数 2
回答已采纳
1
回答
深度Q学习是否适合解决Cart极任务?
、
、
、
最近,我一直试图训练一个Deep网络来解决OpenAI健身房
的
CartPol-V0,解决这个问题意味着在连续100集中平均得分至少达到195.0分。我
使用
的
是2层神经网络,经验回放
的
内存包含100万次经验,
epsilon
贪婪
策略
,RMSProp优化器和Huber损失函数。 在这种情况下,解决任务需要几千集(> 30k)。学习有时也是相当不稳定
的
。那么,深Q网络振荡并花这么长时间学习这样
的
任务是正常
的
吗?还有哪些
浏览 2
提问于2017-03-13
得票数 2
1
回答
Q学习-
epsilon
贪婪
更新
、
、
、
、
我正在尝试理解
DQN
中
的
epsilon
- greedy方法。我正在学习中提供
的
代码$this.
epsilon
= Math.min(1.0,Math.max(this.
epsilon
_min,1.0-(this.age值从min (由用户选择)开始,然后随着年龄
的
增长而增加,直到burnin步长,并最终变为1?或者,
epsilon
在1左右开始
浏览 10
提问于2018-02-02
得票数 3
1
回答
什么决定了增强学习
中
的
epsilon
衰变值?
、
、
我一直在从下面的youtube讲座中学习Qimport gymenv = gym.make("MountainCar-v0")
epsilon
= 0.5END_
EPSILON
_DECAYING = EPISODES// 2 <em
浏览 7
提问于2020-08-02
得票数 0
1
回答
不同
epsilon
值对Q-学习和SARSA
的
影响
、
、
、
、
由于我是这一领域
的
一个开端,我对不同
的
epsilon
值将如何影响SARSA和
epsilon
贪婪
算法
的
行为选择之间
的
效果有疑问。据我所知,当
epsilon
等于0
时
,总是根据Q导出
的
策略
选择动作,因此,Q学习首先更新Q,然后根据更新Q选择下一个动作,SARSA选择下一个动作和更新Q之后
的
动作。 当ε等于1
时
怎么样?
浏览 4
提问于2015-11-17
得票数 2
回答已采纳
1
回答
神经网络q学习在tic
中
的
应用--如何
使用
阈值
、
、
我以前问过一个关于投入
的
问题,并且已经解决了这个问题。我目前对于程序为什么不能工作
的
想法是与阈值有关。这是一个神经网络-Q学习
的
具体变量.基本上,这个值介于0到1之间,然后你在0到1之间做一个随机数,如果这个随机数大于阈值,那么你就选择一个完全随机
的
选择,否则神经网络通过找到最大
的
Q值来选择。我
的
问题是,
使用
这个阈值,我目前正在实现它,从几乎0开始,然后线性增加,直到程序到达最后
的
迭代
时
达到1为止。这是正确
的
吗?我怀
浏览 0
提问于2018-01-13
得票数 3
回答已采纳
1
回答
我怎么能让模特儿失学呢?反向反向传播?
、
、
我无意中发现了一个高度维数
的
最小值,无论我训练了多少个模型,我似乎都无法复制。高学习率和动量
的
结合,迫使在损失空间中进行探索不同优化器 📷
浏览 0
提问于2022-08-18
得票数 0
1
回答
带有衰变感光子
的
DQN
、
、
我在用腐朽
的
感受器学习
DQN
。我遇到过这样
的
例子:我
的
问题是:📷 📷
浏览 0
提问于2020-09-09
得票数 2
回答已采纳
1
回答
访问优化器内部状态
、
、
、
我正在
使用
来自Ray/RLLib
的
DQN
代理。为了更深入地了解训练过程是如何进行
的
,我想访问Adam-Optimizer
的
内部状态,例如可视化梯度
的
运行平均值是如何随时间变化
的
。由于它是
使用
代理
策略
图
的
“优化器”函数构造
的
,然后存储在_optimizer成员-variable
中
(根据TFPolicy_Graph构造函数),因此我
的
直觉是通过 agent.
浏览 18
提问于2019-02-12
得票数 2
回答已采纳
1
回答
奖励是趋同
的
,但经过训练
的
agent所采取
的
行动在强化学习方面是不合逻辑
的
。
、
、
、
、
我正在用
DQN
训练一个强化学习代理。我
的
状态空间有6个变量,代理可以将一个动作离散为500个动作。我
的
奖励结构看起来 else :我
的<
浏览 0
提问于2019-10-03
得票数 0
1
回答
在
DQN
中
,为什么不
使用
目标网络来预测当前状态Q值?
、
、
、
、
在
DQN
中
,为什么不
使用
目标网络来预测当前状态Q值,而不仅仅是下一个状态Q值?用nn从头开始做一个基本
的
dq学习算法,
使用
重放内存和小型批处理gd,我正在实现目标神经网络来预测每个小批样本当前和mext状态Q值,在小批处理结束
时
,同步目标网络,但是我很容易注意到权重
的
发散,也许是因为我用,
epsilon
_decay = 0.99, min_
epsilon
= 0.01): state = self.env.reset
浏览 0
提问于2021-05-07
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
MADQN:多代理合作强化学习
7个流行的强化学习算法及代码实现
DQN三大改进(一)-Double DQN
上手使用DeepMind分布式强化学习框架Acme ,对开发者超友好
DQN三大改进(二)-Prioritised replay
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券