dqn中的两个网络_使用DQN时epsilon贪婪策略中的退火epsilon_如何在Keras中定义DQN模型的输出层形状 - 腾讯云开发者社区

、、、

我刚接触深度强化学习，DQN模型。我使用Open AI gym分别重现了一些名为CartPole-v0和MountainCar-v0的实验。这两个模型都能成功运行，并获得预期的测试集奖励。但两种模型的每个时间步长的奖励是不同的。对于CartPole-v0，奖励是+1和0。每一集都有300个时间步长，代理试图尽可能多地获得总奖励。源代码如下：https://github.com/openai/gym/blob/

浏览 98提问于2020-07-21得票数 0

1回答

DoubleDQN与DQN的性能比较

、

我在健身房NChain游戏上尝试了DoubleDQN和DQN算法，发现DoubleDQN的性能并不比DQN更稳定或更好。我将每次操作后训练的批量大小设置为1，我可以知道这是DoubleDQN没有优于DQN的原因吗？

浏览 5提问于2019-07-05得票数 0

1回答

稳定基线: DQN表现不佳？

、、

我有问题在使用DQN作为对角线和正弦波作为价格波动。当价格上涨时，就会有奖励，并在图表中被涂成绿色。当价格下跌，并被标记为红色，奖励就会上升。请看这个链接的DQN是非常好的学习比稳定基线的DQN。我有一个困难，甚至使用对角线的DQN。罪恶波:如果结果正好相反，那就太好了。绿色代表上升，红色代表下降。我所做的就是把学习率从.01改为10.Epsilon到1。在PPO2中，我可以得到一个很好<em

浏览 1提问于2020-11-04得票数 2

1回答

决斗DQN -为什么我们应该分解，然后将它们组合成？

📷但在那篇论文中，如果我们不能确定给定Q，我们不能恢复V和A的唯一性，我就不明白这是怎么回事。

浏览 0提问于2018-09-07得票数 2

2回答

如何在RL中获取q值

、、、

我不知道如何获得DDQN的Q值。 dqn_next = self.DQN.predictpredict Q on next_states版本1: q_values[i][actions[i]] = (rewards[i] + (G

浏览 6提问于2019-12-22得票数 1

回答已采纳

4回答

为什么我的深Q网和双深Q网不稳定？

、、、

我正在尝试实现DQN和DDQN(都有经验的答复)来解决OpenAI AI-GymCart极地环境.这两种方法有时都能够学习和解决这个问题，但并非总是如此。我的网络只是一个前馈网络(我尝试使用1和2个隐藏层)。在DDQN中，我在DQN中创建了一个网络，在DDQN中创建了两个网络，一个评估Q值的目标网络和一个选择最佳动作的主

浏览 0提问于2018-10-12得票数 4

1回答

深度Q学习(dqn)与神经拟合Q迭代的区别

根据我的理解，它们似乎在做同样的事情，除了dqn每C步更新一次目标网络。

浏览 8提问于2019-04-25得票数 2

1回答

如何用不同的模型对基于DQN的深度神经网络进行强化学习？

、、、

如果不使用深层神经网络(DNN)来实现强化学习算法，比如深度Q-网络(DQN)，可以实现吗？在下面的DQN伪码中，如果我想用另一种无监督算法替换DNN部分，它可能吗？如果是这样的话，是怎么做的？ 📷

浏览 0提问于2018-08-31得票数 3

2回答

深Q网络中的Q-学习方程

、、、、

我的问题是：这个方程是反复出现的吗？假设我使用DQN来玩Atari突破，可能的状态数很大(假设状态是单个游戏的框架)，所以创建所有q值的矩阵是不有效的。方程应该更新给定状态的q值，动作对，那么在DQN的情况下它会做什么呢？我已经试图找到我想要的东西，我看过很多教

浏览 1提问于2018-05-29得票数 2

回答已采纳

3回答

keras-rl2强化学习智能体重塑数据

、、、

我正在尝试构建一个强化学习代理来学习一个自定义环境，该环境是按照openai的健身房规范构建的。 return model 然而，当我构建代

浏览 61提问于2021-02-19得票数 1

1回答

PyTorch软件最大返回

、、

我是PyTorch的新手，为了加强学习，我一直在跟踪。我的环境是一个定制的Pacman游戏，不使用健身房的环境。游戏循环被处理好了。这个Pacman游戏中的一个对象允许访问状态数据。我使用这些数据发送输入到我的深Q网络。首先，我将输入从python列表更改为张量，以便我的Deep网络可以将其作为输入。Deep网络： test_net = self.policy_net(input).max(1)[1].view(1,

浏览 0提问于2020-08-03得票数 0

回答已采纳

1回答

DDPG (深层确定性策略梯度)，参与者如何更新？

、

我目前正试图在Keras中实现DDPG。我知道如何更新评论家网络(普通的DQN算法)，但是我目前还在更新参与者网络，它使用了下面的公式：因此，为了将演员网络wrt的损失降低到它的权重dJ/dtheta，它使用链规则来获得dQ/da(来自评论家网络)* da/dtheta (从演员网络)。这看起来不错，但我很难理解如何从这两个网络中<

浏览 0提问于2018-07-24得票数 5

2回答

DDQN和DQN有什么区别？

、、、

我想我不明白DQN和DDQN在实现上有什么区别。我知道在DDQN运行期间我们改变了traget网络，但我不明白在这段代码中是如何实现的。我们将self.target_model.set_weights(self.model.get_weights())放在DDQN的实现中，这是在DQN的操作完成后添加的，https://github.com/keon/deep-q-learning将self.t

浏览 0提问于2018-09-22得票数 10

1回答

Q学习的收敛时间与深度Q学习

、、

我想知道深度Q学习与Q学习在同一问题上运行时的收敛时间。谁能告诉我他们之间的模式是什么？如果用图表来解释会更好。

浏览 3提问于2021-04-26得票数 0

1回答

如何构建输出1离散值和1连续值作为对的DQN？

、、、、

我正在建造一个开放健身房环境的DQN。我的观察空间只有一个离散值，但我的行动是：1,56，0,24，2，-78.我目前的神经网络是：model.add(Dense(24, activation='relu', input_shape=states)) # (1,) model.add(Dense(24, acti

浏览 4提问于2021-02-23得票数 2

回答已采纳

2回答

如何理解这个map-reduce代码是如何工作的？

它将一个二维数组的第一行作为标题。在这里的这一部分，我不明白发生了什么： const fn = ([keys, ...values]) => vs.reduce((acc, v, i)= v, acc), {})) [ 'combi', 'DQ#', 'sd', 'Level 3', 'Level 6', 'Level 7' ], [

浏览 16提问于2021-10-05得票数 0

回答已采纳

1回答

如何在非常大的州中使用DeepQLearning？

、

我想使用的DeepQLearning.jl包。, mdp, policy)在mdp = SimpleGridWorld()行中，当我试图创建MDP时，我遇到了非常大的状态空间的问题。我的MDP中的状态是一些m和n的{1,2,...,m}^n中的向量。因此，在定义函数POMDPs

浏览 12提问于2020-05-28得票数 1

回答已采纳

1回答

如何构建基于环境状态在环境中选择正确对象的DQN？

、、、

我有一个有4个对象的环境。可以选择所有这些对象，也可以不选择。因此，我的DQN所采取的行动应该类似于- [1,0,1,1],[0,0,0,1],[1,1,0,0]...etc。作为DQN输入的环境状态由每个对象的属性和环境的其他因素组成。DQN将根据它所做的选择获得奖励。我刚开始强化学习，我只构建了DQN，它需要从整个动作空间中选择一个动作。但是如何为这个特定的环境构建一个

浏览 0提问于2020-05-22得票数 1

回答已采纳

2回答

为什么DQNAgent.fit要向我的输入数据添加额外的维度？

、、、

我正在使用Keras的深层Q学习代理之一: DQNAgent。当我将环境传递到DQNAgent.fit中时，会收到以下错误：/usr/local我的环境的状态和空间定义如下：self.action_space = spaces.Tuple((spaces.DiscreteDense(200

浏览 4提问于2021-06-30得票数 1

1回答

TensorFlow:我如何总结TensorBoard的两个对象网络？

、

我有一个类，它有创建网络的方法。_Y: y_stack, ) with tf.Session() as sess: mainDQN = dqn.DQN(sess, input_size, output_size, namemainDQN的loss函数。需要你的建议，谢谢。

浏览 1提问于2017-06-09得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何确定在DQN模型中使用正奖励还是负奖励？

DoubleDQN与DQN的性能比较

稳定基线: DQN表现不佳？

决斗DQN -为什么我们应该分解，然后将它们组合成？

如何在RL中获取q值

为什么我的深Q网和双深Q网不稳定？

深度Q学习(dqn)与神经拟合Q迭代的区别

如何用不同的模型对基于DQN的深度神经网络进行强化学习？

深Q网络中的Q-学习方程

keras-rl2强化学习智能体重塑数据

PyTorch软件最大返回

DDPG (深层确定性策略梯度)，参与者如何更新？

DDQN和DQN有什么区别？

Q学习的收敛时间与深度Q学习

如何构建输出1离散值和1连续值作为对的DQN？

如何理解这个map-reduce代码是如何工作的？

如何在非常大的州中使用DeepQLearning？

如何构建基于环境状态在环境中选择正确对象的DQN？

为什么DQNAgent.fit要向我的输入数据添加额外的维度？

TensorFlow:我如何总结TensorBoard的两个对象网络？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐