腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
决斗
DQN
更新
模型
架构
并
导致
问题
、
、
我使用以下
架构
创建了一个初始网络
模型
。env.action_size)) print(model.summary()) return model 然后调用
更新
网络体系结构的(Adam(lr=settings['train']['learning_rate']), metrics=['mse']) 这样做的结果是
更新
了网络
架构
-正如预期的那
浏览 31
提问于2020-12-05
得票数 0
回答已采纳
1
回答
Python脚本在一段时间后关闭
、
、
、
我将Keras用于层、优化器和
模型
,我的
模型
是Sequential 我有两个
DQN
网络,我让他们在模拟环境中互相
决斗
,然而在大约35集(每次都不同)之后,脚本就停止了,没有任何错误。我已经将我的
问题
隔离为当代理运行当前状态的预测
模型
以获得操作时的某个地方。该过程被调用,但从未完成,脚本只是停止,没有任何错误。如何调试此
问题
?
浏览 18
提问于2019-10-11
得票数 0
1
回答
使用
DQN
处理目标时出现奇怪的结果
、
我一直在尝试用目标网络实现
DQN
,但我得到了一些非常奇怪的结果。有人能看一下我的代码,告诉我
问题
出在哪里吗?Fimport mathimport gym import matplotlib.pyplot as plt
浏览 24
提问于2019-07-19
得票数 0
回答已采纳
1
回答
决斗
DQN
-为什么我们应该分解,然后将它们组合成?
📷但在那篇论文中,如果我们不能确定给定Q,我们不能恢复V和A的唯一性,我就不明白这是怎么回事。
浏览 0
提问于2018-09-07
得票数 2
1
回答
DQN
是如何解决开放AI Cartpole-v0的?
、
、
、
上下文
问题
/关切 我与env的主要
问题
是,保持杆垂直与
DQN
没有什么不同,因为它将杆保持在接近失效的位置。如果得到+1的奖励,
DQN
如何变得更好?然后,在优化
模型
时,由于倾斜极态的分布较高,因此倾斜极态比垂直极态得到更高的回报。我们怎样才能期望
DQN<
浏览 0
提问于2019-04-28
得票数 0
回答已采纳
2
回答
DDQN和
DQN
有什么区别?
、
、
、
我想我不明白
DQN
和DDQN在实现上有什么区别。我知道在DDQN运行期间我们改变了traget网络,但我不明白在这段代码中是如何实现的。我们将self.target_model.set_weights(self.model.get_weights())放在DDQN的实现中,这是在
DQN
的操作完成后添加的,https://github.com/keon/deep-q-learning将self.target_model.set_weights(self.model.get_weights())添加到
DQN</em
浏览 0
提问于2018-09-22
得票数 10
1
回答
模型
和权重不从检查点加载
、
、
我正在使用OpenAI健身房的cartpole环境训练强化学习
模型
。尽管我的体重和
模型
的.h5文件出现在目标目录中,但在运行以下代码后,我没有得到任何内容- tf.train.get_checkpoint_state("C:/Users/dgt/Documents").= keras.models.load_model('cartpole.h5')
dqn
_solver.model = model.load_weights('cartpole_w
浏览 21
提问于2020-08-25
得票数 1
回答已采纳
1
回答
将有监督的神经网络转化为强化学习?
、
我有一个功能性的LSTM
模型
,它具有可接受的性能。现在我如何将这个受监督的
模型
转换为一个强化学习
模型
,以提高性能?关于如何将有监督的
模型
转换为强化学习
模型
,有什么例子吗?详细信息:我有一个多输入多输出系统(因为我不能分享实际
问题
,让我们假设天气预报为例),我需要实时预测输出(如温度、风速等)。我有一个很大的数据集,我尝试了一个监督学习
模型
,它可以很好地实时地完成预测。
问题
是,有时预测值和实际值之间有很大的偏差。这意味着,数据集中可能出现了一种从未出现
浏览 0
提问于2019-10-21
得票数 2
1
回答
强化(Q)学习:在生产中学习吗?
、
、
我有一个
问题
,我找不到答案: 在训练强化学习(使用
DQN
)的同时,我得到了下一次行动的最佳奖励
模型
。现在,如果我部署这个
模型
(即使用这个
模型
进行预测),它是否继续学习(即
更新
Q值)?
浏览 0
提问于2020-05-25
得票数 0
回答已采纳
1
回答
Keras-rl ValueError“
模型
有多个输出,
DQN
期望
模型
有一个输出”
、
、
、
、
我有一个具有15x15输入网格的
模型
,这将
导致
两个输出。每个输出有15个可能的值,它们是x或y坐标。我这么做是因为它比网格上的每个位置都有225个单独的输出要简单得多。
问题
是,当我尝试使用以下代码来训练
模型
时: policy = BoltzmannQPolicy()plt.show()
浏览 20
提问于2022-06-09
得票数 0
回答已采纳
2
回答
Keras中的策略梯度
、
、
、
、
我一直试图建立一个使用‘深度Q-学习’的
模型
,其中我有大量的行动(2908)。在使用标准
DQN
:()取得有限的成功之后,我决定做更多的研究,因为我认为动作空间太大,无法进行有效的探索。然后我发现了这篇论文:,在这里他们使用了一个参与者-评论家
模型
和策略梯度,这
导致
了我:,在那里,他们使用策略梯度来获得比
DQN
更好的结果。在前者(当我阅读论文时),似乎不是为参与者网络提供输入和输出对,而是为所有权重提供梯度,然后使用网络
更新
它,而在后者中,它们只是计算一个输入-输出对。 我是不是把自己搞糊
浏览 6
提问于2016-11-05
得票数 23
1
回答
使用tensorflow解决openai健身房
问题
的双足步行者
、
、
我正试图解决openai的Bipedalwalker
问题
。
问题
是,我总是得到错误:输出的形状应该是-1到1之间的4个值(比如: 0.45099565 -0.7659952 -0.01972992 0.62626314),所以我定义了这样的
模型
:model.add(Dense(actions, activation='linear'))当我试图训练
模型</e
浏览 5
提问于2021-09-25
得票数 0
1
回答
简单的
DQN
示例-在配置中指定什么,以便将
模型
参数和结果打印出来?
我想在运行
DQN
或DDPG
模型
后打印参数和结果。我在jupyter notebook中触发了
模型
,如下所示。 定义了配置和对象,
并
命名为training。如下所示: 但这并未打印
模型
参数和结果。Ubuntu EC2实例Jupyter notebook
DQN
on cart pole示例。我还想为我的
问题
设置(在线电子商务数据)使用我的自定义体验数据集进行策略培训 config_dict = {"evaluation_num_episodes":4,
浏览 20
提问于2019-04-13
得票数 1
1
回答
为什么需要目标网络?
、
我很关心为什么目标网络在
DQN
中是必需的?我正在读关于“通过深入强化学习来控制人的层次”的论文。 因此,
浏览 2
提问于2019-01-17
得票数 28
回答已采纳
1
回答
a3c中的收敛
问题
、
、
、
我过去曾在
DQN
上测试过它,它成功地收敛,取得了很好的效果。但是当我在A3C中使用相同的环境时,它会
导致
模型
一次又一次地选择相同的操作。我试着换了一些超级护理人员,但没有结果。我还尝试使用目标
模型
并
每n集
更新
一次,这使我与健身房CartPole环境更好地趋同,但在我的自定义环境中仍然对我的
模型
的性能没有影响。我在reddit上发现了一些关于同一个
问题
的讨论,但没有人回答。
浏览 0
提问于2018-06-21
得票数 0
回答已采纳
1
回答
稀疏代理的强化学习
、
我正在研究一个
问题
,在这个
问题
上,最优策略大多数时候涉及到代理“什么都不做”,而在罕见的关键时刻“做一些事情”。在解决这样的
问题
时,是否有任何文献或最佳实践,而这些
问题
的行动是非常罕见的?我认为
问题
的一部分是,代理只有在他行动时才会收到回报反馈,这使得学习最优稀疏行动策略相当困难。我一直试图避免奖励黑客(代理频繁行动,
并
收集许多小的奖励),通过这样的方式权衡奖励,由罕见但正确的行动给予的奖励远远超出重量奖励的频繁,不正确的时间行动。目前使用的是
决斗
的
DQN</e
浏览 0
提问于2019-12-30
得票数 5
1
回答
使用tf梯度
更新
keras
模型
、
、
r})with self.default_graph.as_default():所以我想在完成训练后使用这些梯度
更新
我的keras
模型
权重,以便使用model.save('path.h5')保存它。
浏览 2
提问于2018-06-12
得票数 1
1
回答
设置神经网络的权重?
、
、
我现在正在编写一个DRL算法,它使用了双
DQN
的原理,
模型
和目标会随着时间的推移而
更新
。因此,在我的代码中,我使用了这一行: self.q_next.set_weights(self.q_eval.get_weights()) 这将
导致
以下错误消息: ValueError:您使用长度为10
浏览 16
提问于2020-12-15
得票数 0
1
回答
如何查看gym.make('env')内部发生了什么
、
、
、
、
为了创建自己的环境
并
使用github的一些代码,我需要查看gym.make('env')内部发生了什么,例如gym.make('carpole0') 在健身房里的github,我能找到它吗?如何编写“为
DQN
定义环境(env)”的
更新
部分,而
DQN
不在健身房库中?我正在寻找一个环境定义"env"示例上的github或其他资源,不是为Atari游戏设计的。我看到了几个
模型
,但大多数都使用OpenAI的gym库,它们都是为玩Atari游戏而编写的,这
浏览 0
提问于2018-05-23
得票数 0
回答已采纳
1
回答
ValueError:
模型
输出“张量(”activation-1/Identity:0“,shape=(?,3),dtype=float32)的形状无效
、
、
、
File "/Users/anisschohra/deep-q-trading/deepQTrading.py", line 68, in __init__ File "/Users/anisschohra/.local/lib/python3.7/site-packages/rl/agents/
dqn</e
浏览 4
提问于2021-07-14
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
DQN、A3C、DDPG、IQN…你都掌握了吗?一文总结强化学习必备经典模型(一)
一文简述多种强化学习算法,重要概念和术语一览
从Q学习到DDPG,一文简述多种强化学习算法
一文让你了解多种强化学习算法
谁说RL智能体只能在线训练?谷歌发布离线强化学习新范式,训练集相当于200多个ImageNet
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券