腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
TensorFlowJs
上
实现
DQN
算法
?
、
、
、
、
开发人员, 我找到了一堆
DQN
实现
的示例,但因为我不是TensorFlow专家,所以我有点困惑。 让我们看看here就是其中之一。同样的事情也发生在newCurrentStates和futureQs
上
。 但是在88,我们看到了let maxFutureQ = Math.max(futureQs);。这里发生了什么?我也不明白为什么我们需要在94
上
做currentQ[action] = newQ;。 有没有人能帮我理解一下这里发生了什么,并给我留下一些评论呢? 提前谢谢。 编辑: 讨论的代码: ?
浏览 34
提问于2021-01-09
得票数 1
回答已采纳
0
回答
如何用
DQN
算法
在gym
上
对陆空两栖机器人进行决策控制?
、
、
对于陆空两栖机器人,如
何在
gym
上
建立对应的三维环境(),通过
DQN
算法
实现
其路径规划或者运动模式的选择
浏览 116
提问于2023-04-17
1
回答
强化学习中不同方法的理解与评价
、
、
、
我一直试图使用不同的变体(
如
Q-learning、Deep Q-Network、Double
DQN
和Dueling Double
DQN
)在Python
上
实现
强化学习
算法
。
浏览 4
提问于2021-01-08
得票数 2
回答已采纳
1
回答
连续状态和动作空间的强化学习
、
、
如果您对这种方法感兴趣,下面是在DeepMind:http://proceedings.mlr.press/v32/silver14.pdf
上
撰写的原始论文 行动者-批评家方法应该有效,但它通常(或总是有趣的方法,但我还没有看到任何
实现
,在我的例子中奖励函数是相当简单的。是否有一种方法来处理我尚未探索过的配置?
浏览 0
提问于2019-01-05
得票数 5
回答已采纳
1
回答
在
DQN
中,当经验缓冲区中的每个记录只对应一个动作时,如何执行梯度下降?
下面的
DQN
算法
? Source 在梯度下降线上,有一些我不太理解的东西。 例如,如果我有8个动作,那么输出Q是8个分量的向量,对吗?如
何在
(y_i - Q)^2
上
执行梯度下降?我认为在一个小批量中我不能保证一个状态的所有操作的返回。
浏览 29
提问于2019-05-23
得票数 1
回答已采纳
1
回答
GPU是否缩短了策略RL的培训时间?
、
、
我想知道使用GPU是否会有效,如果我使用的政策(
如
PPO) RL作为模型?我最近训练了一个模型,GPU的利用率约为2%。
浏览 0
提问于2021-10-13
得票数 1
回答已采纳
1
回答
使用tf梯度更新keras模型
、
、
我正在尝试在keras中构建一个a3c
实现
。我有使用keras的经验,但绝对没有使用tensorflow的经验。
浏览 2
提问于2018-06-12
得票数 1
1
回答
DQN
的Q损耗转换,但性能不佳
、
、
、
我试图用Python编写我自己的
DQN
,使用py手电筒。我正在CartPole环境
上
试用它。 虽然Q损失转换,但模型的表现很差。
浏览 2
提问于2022-03-20
得票数 0
1
回答
Q学习的收敛时间与深度Q学习
、
、
我想知道深度Q学习与Q学习在同一问题上运行时的收敛时间。谁能告诉我他们之间的模式是什么?如果用图表来解释会更好。
浏览 3
提问于2021-04-26
得票数 0
1
回答
为RL选择若干神经元
如果我想用
DQN
训练我的强化学习代理,我如何选择神经元的数量?然而,在RL中,泛化甚至是一件事吗?毕竟,我们是在训练一只蜘蛛以最有效的方式移动它的四肢,一只手臂以最快的方式抓住一个盒子,等等。
浏览 0
提问于2018-06-10
得票数 4
回答已采纳
2
回答
强化学习是否适用于随机环境?
、
-我们正在使用
DQN
和Adam优化器。谢谢拉杰什
浏览 2
提问于2018-10-10
得票数 2
5
回答
Scala ParArray排序
、
、
如何按ParArray集合的升序排序,
如
否则,哪个并行集合可能更适合用于此目的?更新 如
何在
ParArray
上
实现
一种并行
算法
,该
算法
可能比向非并行集合进行顺序排序更有效?
浏览 4
提问于2014-05-16
得票数 2
回答已采纳
2
回答
DQN
到底是如何学习的?
、
、
、
、
我使用
DQN
模型和BoltzmannQPolicy。它很好地训练了以下变量:与端点的距离它能向哪个方向移动?我应该用哪种
算法
来代替?
浏览 0
提问于2021-02-28
得票数 3
1
回答
用DDPG代理定制step函数处理环境
、
、
/history_
dqn
_test_'+ filename + '.pickle', 'wb') as handle: agent.save_weights('h5f_files/
dqn
_{}_weights.h5f'.format(filename), overwrite=True) 下面是一个问题:代理
浏览 2
提问于2019-07-08
得票数 1
1
回答
决斗
DQN
-为什么我们应该分解,然后将它们组合成?
,V是指代理人遵循当前政策时的总报酬;Q是指如果我们给出具体的行动,然后遵循当前的政策,那么总报酬是什么;如果我们得到了最优策略,V将等于q;所以我们应该学会使A达到零;就像答案:-无法理解其机制决斗
DQN
浏览 0
提问于2018-09-07
得票数 2
1
回答
强化学习的边界
、
、
、
、
国家考虑到附近是否有任何危险,如果食物是向上,向下,右或左,以及如果代理人是
上
,下,右或左。 问题是:在强化学习中,奖励正确方向的行为者是“正确的方法”吗?或者被认为是作弊,因为系统需要自己去学习?
浏览 0
提问于2018-09-20
得票数 1
回答已采纳
1
回答
这个Python内存优化是如何工作的?
、
有些环境是基于图像的,因此,当与存储10万或数百万帧环境观测的
算法
一起使用时,可能会产生非常大的内存占用。在研究DeepQ学习的参考
实现
时,我发现了一对类,和,它们声称“确保观察之间的公共帧只存储一次……以优化内存使用,这对于
DQN
的100万帧重放缓冲区来说是巨大的。”在参考
实现
中,DeepQ代理将四组帧堆叠在一起,然后将其放入重放缓冲区。在查看了这两个类的
实现
之后,我并不清楚这些如何节省内存--如果有的话,因为LazyFrames基本
上
是一个由四个numpy数组组成的容器对象,难道La
浏览 0
提问于2018-04-27
得票数 1
回答已采纳
1
回答
LZW
算法
-二进制压缩
、
、
、
、
到目前为止,我
实现
了Huffman编码
算法
,但我注意到这还不够--压缩是最小的,我只能压缩几百万比特,通常只能压缩原始文件的1%。我搜索了有关它的信息,我发现大多数压缩文件程序,
如
bzip2和gzip,都在一起使用LZW和Huffman
算法
的组合。当我尝试使用LZW
算法
时,我被困在如何对二进制和位进行处理的问题上。关于该
算法
的大多数示例和解释都是在字母字符串和一些有限-不充分的二进制信息上进行检查。对于如
何在
二进制
上
实现
它,有没有一个
浏览 4
提问于2017-12-17
得票数 1
1
回答
如何使用Cloudsim应用容错
算法
?
我想使用cloud Sim创建容错
算法
。如果有任何与我的项目相关的代码,它将更有助于我完成我的项目。
浏览 3
提问于2016-11-17
得票数 0
1
回答
说出像paytm这样的声音
、
、
我想要集成的
算法
,是使用paytm的话语量,
如
20 is成功完成。因此,我想
实现
同样的功能,任何人都可以建议我如
何在
android或kotlin中使用印度语音口音来
实现
这一点。
浏览 2
提问于2022-05-09
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券