如何在TensorFlowJs上实现DQN算法？

文章/答案/技术大牛

发布

1回答

、、、、

开发人员，我找到了一堆DQN实现的示例，但因为我不是TensorFlow专家，所以我有点困惑。让我们看看here就是其中之一。同样的事情也发生在newCurrentStates和futureQs上。但是在88，我们看到了let maxFutureQ = Math.max(futureQs);。这里发生了什么？我也不明白为什么我们需要在94上做currentQ[action] = newQ;。有没有人能帮我理解一下这里发生了什么，并给我留下一些评论呢？提前谢谢。编辑：讨论的代码： ?

浏览 34提问于2021-01-09得票数 1

回答已采纳

0回答

如何用DQN算法在gym上对陆空两栖机器人进行决策控制？

、、

对于陆空两栖机器人，如何在gym上建立对应的三维环境（），通过DQN算法实现其路径规划或者运动模式的选择

浏览 116提问于2023-04-17

1回答

强化学习中不同方法的理解与评价

、、、

我一直试图使用不同的变体(如Q-learning、Deep Q-Network、Double DQN和Dueling Double DQN )在Python上实现强化学习算法。

浏览 4提问于2021-01-08得票数 2

回答已采纳

1回答

连续状态和动作空间的强化学习

、、

如果您对这种方法感兴趣，下面是在DeepMind：http://proceedings.mlr.press/v32/silver14.pdf上撰写的原始论文行动者-批评家方法应该有效，但它通常(或总是有趣的方法，但我还没有看到任何实现，在我的例子中奖励函数是相当简单的。是否有一种方法来处理我尚未探索过的配置？

浏览 0提问于2019-01-05得票数 5

回答已采纳

1回答

在DQN中，当经验缓冲区中的每个记录只对应一个动作时，如何执行梯度下降？

下面的DQN算法 ? Source 在梯度下降线上，有一些我不太理解的东西。例如，如果我有8个动作，那么输出Q是8个分量的向量，对吗？如何在(y_i - Q)^2上执行梯度下降？我认为在一个小批量中我不能保证一个状态的所有操作的返回。

浏览 29提问于2019-05-23得票数 1

回答已采纳

1回答

GPU是否缩短了策略RL的培训时间？

、、

我想知道使用GPU是否会有效，如果我使用的政策(如PPO) RL作为模型？我最近训练了一个模型，GPU的利用率约为2%。

浏览 0提问于2021-10-13得票数 1

回答已采纳

1回答

使用tf梯度更新keras模型

、、

我正在尝试在keras中构建一个a3c实现。我有使用keras的经验，但绝对没有使用tensorflow的经验。

浏览 2提问于2018-06-12得票数 1

1回答

DQN的Q损耗转换，但性能不佳

、、、

我试图用Python编写我自己的DQN，使用py手电筒。我正在CartPole环境上试用它。虽然Q损失转换，但模型的表现很差。

浏览 2提问于2022-03-20得票数 0

1回答

Q学习的收敛时间与深度Q学习

、、

我想知道深度Q学习与Q学习在同一问题上运行时的收敛时间。谁能告诉我他们之间的模式是什么？如果用图表来解释会更好。

浏览 3提问于2021-04-26得票数 0

1回答

为RL选择若干神经元

如果我想用DQN训练我的强化学习代理，我如何选择神经元的数量？然而，在RL中，泛化甚至是一件事吗？毕竟，我们是在训练一只蜘蛛以最有效的方式移动它的四肢，一只手臂以最快的方式抓住一个盒子，等等。

浏览 0提问于2018-06-10得票数 4

回答已采纳

2回答

强化学习是否适用于随机环境？

、

-我们正在使用DQN和Adam优化器。谢谢拉杰什

浏览 2提问于2018-10-10得票数 2

5回答

Scala ParArray排序

、、

如何按ParArray集合的升序排序，如否则，哪个并行集合可能更适合用于此目的？更新如何在ParArray上实现一种并行算法，该算法可能比向非并行集合进行顺序排序更有效？

浏览 4提问于2014-05-16得票数 2

回答已采纳

2回答

DQN到底是如何学习的？

、、、、

我使用DQN模型和BoltzmannQPolicy。它很好地训练了以下变量：与端点的距离它能向哪个方向移动？我应该用哪种算法来代替？

浏览 0提问于2021-02-28得票数 3

1回答

用DDPG代理定制step函数处理环境

、、

/history_dqn_test_'+ filename + '.pickle', 'wb') as handle: agent.save_weights('h5f_files/dqn_{}_weights.h5f'.format(filename), overwrite=True) 下面是一个问题:代理

浏览 2提问于2019-07-08得票数 1

1回答

决斗DQN -为什么我们应该分解，然后将它们组合成？

，V是指代理人遵循当前政策时的总报酬；Q是指如果我们给出具体的行动，然后遵循当前的政策，那么总报酬是什么；如果我们得到了最优策略，V将等于q；所以我们应该学会使A达到零；就像答案：-无法理解其机制决斗DQN

浏览 0提问于2018-09-07得票数 2

1回答

强化学习的边界

、、、、

国家考虑到附近是否有任何危险，如果食物是向上，向下，右或左，以及如果代理人是上，下，右或左。问题是:在强化学习中，奖励正确方向的行为者是“正确的方法”吗？或者被认为是作弊，因为系统需要自己去学习？

浏览 0提问于2018-09-20得票数 1

回答已采纳

1回答

这个Python内存优化是如何工作的？

、

有些环境是基于图像的，因此，当与存储10万或数百万帧环境观测的算法一起使用时，可能会产生非常大的内存占用。在研究DeepQ学习的参考实现时，我发现了一对类，和，它们声称“确保观察之间的公共帧只存储一次……以优化内存使用，这对于DQN的100万帧重放缓冲区来说是巨大的。”在参考实现中，DeepQ代理将四组帧堆叠在一起，然后将其放入重放缓冲区。在查看了这两个类的实现之后，我并不清楚这些如何节省内存--如果有的话，因为LazyFrames基本上是一个由四个numpy数组组成的容器对象，难道La

浏览 0提问于2018-04-27得票数 1

回答已采纳

1回答

LZW算法-二进制压缩

、、、、

到目前为止，我实现了Huffman编码算法，但我注意到这还不够--压缩是最小的，我只能压缩几百万比特，通常只能压缩原始文件的1%。我搜索了有关它的信息，我发现大多数压缩文件程序，如bzip2和gzip，都在一起使用LZW和Huffman算法的组合。当我尝试使用LZW算法时，我被困在如何对二进制和位进行处理的问题上。关于该算法的大多数示例和解释都是在字母字符串和一些有限-不充分的二进制信息上进行检查。对于如何在二进制上实现它，有没有一个

浏览 4提问于2017-12-17得票数 1

1回答