腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何确定在
DQN
模型中使用正奖励还是负奖励?
、
、
、
我刚接触深度强化学习,
DQN
模型。我使用Open AI gym分别重现了一些名为CartPole-v0和MountainCar-v0
的
实验。这
两个
模型都能成功运行,并获得预期
的
测试集奖励。但两种模型
的
每个时间步长
的
奖励是不同
的
。 对于CartPole-v0,奖励是+1和0。每一集都有300个时间步长,代理试图尽可能多地获得总奖励。源代码如下:https://github.com/openai/gym/blob/
浏览 98
提问于2020-07-21
得票数 0
1
回答
DoubleDQN与
DQN
的
性能比较
、
我在健身房NChain游戏上尝试了DoubleDQN和
DQN
算法,发现DoubleDQN
的
性能并不比
DQN
更稳定或更好。我将每次操作后训练
的
批量大小设置为1,我可以知道这是DoubleDQN没有优于
DQN
的
原因吗?
浏览 5
提问于2019-07-05
得票数 0
1
回答
稳定基线:
DQN
表现不佳?
、
、
我有问题在使用
DQN
作为对角线和正弦波作为价格波动。当价格上涨时,就会有奖励,并在图表中被涂成绿色。当价格下跌,并被标记为红色,奖励就会上升。请看这个链接
的
DQN
是非常好
的
学习比稳定基线
的
DQN
。我有一个困难,甚至使用对角线
的
DQN
。罪恶波:如果结果正好相反,那就太好了。绿色代表上升,红色代表下降。我所做
的
就是把学习率从.01改为10.Epsilon到1。在PPO2
中
,我可以得到一个很好<em
浏览 1
提问于2020-11-04
得票数 2
1
回答
决斗
DQN
-为什么我们应该分解,然后将它们组合成?
📷但在那篇论文中,如果我们不能确定给定Q,我们不能恢复V和A
的
唯一性,我就不明白这是怎么回事。
浏览 0
提问于2018-09-07
得票数 2
2
回答
如何在RL
中
获取q值
、
、
、
我不知道如何获得DDQN
的
Q值。
dqn
_next = self.
DQN
.predictpredict Q on next_states版本1: q_values[i][actions[i]] = (rewards[i] + (G
浏览 6
提问于2019-12-22
得票数 1
回答已采纳
4
回答
为什么我
的
深Q网和双深Q网不稳定?
、
、
、
我正在尝试实现
DQN
和DDQN(都有经验
的
答复)来解决OpenAI AI-GymCart极地环境.这两种方法有时都能够学习和解决这个问题,但并非总是如此。我
的
网络
只是一个前馈
网络
(我尝试使用1和2个隐藏层)。在DDQN
中
,我在
DQN
中
创建了一个
网络
,在DDQN
中
创建了
两个
网络
,一个评估Q值
的
目标
网络
和一个选择最佳动作
的
主
浏览 0
提问于2018-10-12
得票数 4
1
回答
深度Q学习(
dqn
)与神经拟合Q迭代
的
区别
根据我
的
理解,它们似乎在做同样
的
事情,除了
dqn
每C步更新一次目标
网络
。
浏览 8
提问于2019-04-25
得票数 2
1
回答
如何用不同
的
模型对基于
DQN
的
深度神经
网络
进行强化学习?
、
、
、
如果不使用深层神经
网络
(DNN)来实现强化学习算法,比如深度Q-
网络
(
DQN
),可以实现吗?在下面的
DQN
伪码
中
,如果我想用另一种无监督算法替换DNN部分,它可能吗?如果是这样的话,是怎么做
的
? 📷
浏览 0
提问于2018-08-31
得票数 3
2
回答
深Q
网络
中
的
Q-学习方程
、
、
、
、
我
的
问题是: 这个方程是反复出现
的
吗?假设我使用
DQN
来玩Atari突破,可能
的
状态数很大(假设状态是单个游戏
的
框架),所以创建所有q值
的
矩阵是不有效
的
。方程应该更新给定状态
的
q值,动作对,那么在
DQN
的
情况下它会做什么呢?我已经试图找到我想要
的
东西,我看过很多教
浏览 1
提问于2018-05-29
得票数 2
回答已采纳
3
回答
keras-rl2强化学习智能体重塑数据
、
、
、
我正在尝试构建一个强化学习代理来学习一个自定义环境,该环境是按照openai
的
健身房规范构建
的
。 return model 然而,当我构建代
浏览 61
提问于2021-02-19
得票数 1
1
回答
PyTorch软件最大返回
、
、
我是PyTorch
的
新手,为了加强学习,我一直在跟踪。我
的
环境是一个定制
的
Pacman游戏,不使用健身房
的
环境。游戏循环被处理好了。这个Pacman游戏中
的
一个对象允许访问状态数据。我使用这些数据发送输入到我
的
深Q
网络
。首先,我将输入从python列表更改为张量,以便我
的
Deep
网络
可以将其作为输入。Deep
网络
: test_net = self.policy_net(input).max(1)[1].view(1,
浏览 0
提问于2020-08-03
得票数 0
回答已采纳
1
回答
DDPG (深层确定性策略梯度),参与者如何更新?
、
我目前正试图在Keras
中
实现DDPG。我知道如何更新评论家
网络
(普通
的
DQN
算法),但是我目前还在更新参与者
网络
,它使用了下面的公式:因此,为了将演员
网络
wrt
的
损失降低到它
的
权重dJ/dtheta,它使用链规则来获得dQ/da(来自评论家
网络
)* da/dtheta (从演员
网络
)。这看起来不错,但我很难理解如何从这
两个
网络
中<
浏览 0
提问于2018-07-24
得票数 5
2
回答
DDQN和
DQN
有什么区别?
、
、
、
我想我不明白
DQN
和DDQN在实现上有什么区别。我知道在DDQN运行期间我们改变了traget
网络
,但我不明白在这段代码
中
是如何实现
的
。我们将self.target_model.set_weights(self.model.get_weights())放在DDQN
的
实现
中
,这是在
DQN
的
操作完成后添加
的
,https://github.com/keon/deep-q-learning将self.t
浏览 0
提问于2018-09-22
得票数 10
1
回答
Q学习
的
收敛时间与深度Q学习
、
、
我想知道深度Q学习与Q学习在同一问题上运行时
的
收敛时间。谁能告诉我他们之间
的
模式是什么?如果用图表来解释会更好。
浏览 3
提问于2021-04-26
得票数 0
1
回答
如何构建输出1离散值和1连续值作为对
的
DQN
?
、
、
、
、
我正在建造一个开放健身房环境
的
DQN
。我
的
观察空间只有一个离散值,但我
的
行动是:1,56,0,24,2,-78.我目前
的
神经
网络
是:model.add(Dense(24, activation='relu', input_shape=states)) # (1,) model.add(Dense(24, acti
浏览 4
提问于2021-02-23
得票数 2
回答已采纳
2
回答
如何理解这个map-reduce代码是如何工作
的
?
它将一个二维数组
的
第一行作为标题。在这里
的
这一部分,我不明白发生了什么: const fn = ([keys, ...values]) => vs.reduce((acc, v, i)= v, acc), {})) [ 'combi', 'DQ#', 'sd', 'Level 3', 'Level 6', 'Level 7' ], [
浏览 16
提问于2021-10-05
得票数 0
回答已采纳
1
回答
如何在非常大
的
州中使用DeepQLearning?
、
我想使用
的
DeepQLearning.jl包。, mdp, policy)在mdp = SimpleGridWorld()行
中
,当我试图创建MDP时,我遇到了非常大
的
状态空间
的
问题。我
的
MDP
中
的
状态是一些m和n
的
{1,2,...,m}^n
中
的
向量。因此,在定义函数POMDPs
浏览 12
提问于2020-05-28
得票数 1
回答已采纳
1
回答
如何构建基于环境状态在环境中选择正确对象
的
DQN
?
、
、
、
我有一个有4个对象
的
环境。可以选择所有这些对象,也可以不选择。因此,我
的
DQN
所采取
的
行动应该类似于- [1,0,1,1],[0,0,0,1],[1,1,0,0]...etc。作为
DQN
输入
的
环境状态由每个对象
的
属性和环境
的
其他因素组成。
DQN
将根据它所做
的
选择获得奖励。我刚开始强化学习,我只构建了
DQN
,它需要从整个动作空间中选择一个动作。但是如何为这个特定
的
环境构建一个
浏览 0
提问于2020-05-22
得票数 1
回答已采纳
2
回答
为什么DQNAgent.fit要向我
的
输入数据添加额外
的
维度?
、
、
、
我正在使用Keras
的
深层Q学习代理之一: DQNAgent。当我将环境传递到DQNAgent.fit
中
时,会收到以下错误:/usr/local我
的
环境
的
状态和空间定义如下:self.action_space = spaces.Tuple((spaces.DiscreteDense(200
浏览 4
提问于2021-06-30
得票数 1
1
回答
TensorFlow:我如何总结TensorBoard
的
两个
对象
网络
?
、
我有一个类,它有创建
网络
的
方法。_Y: y_stack, ) with tf.Session() as sess: mainDQN =
dqn
.
DQN
(sess, input_size, output_size, namemainDQN
的
loss函数。需要你
的
建议,谢谢。
浏览 1
提问于2017-06-09
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
神经网络“剪枝”的两个方法
如何找出两个 Excel 名单中的差别
强化学习:DQN与Double DQN讨论
冷链运输中的两个重要环节
深度强化学习-DDPG算法原理和实现
热门
标签
更多标签
云服务器
ICP备案
实时音视频
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券