为什么我们需要与均匀分布进行比较来选择动作，而策略函数在Deep RL中做到了这一点

、、、

在Karpathy编写的以下代码中，为什么我们有这一行(为什么我们需要与均匀分布进行比较来选择一个操作，而策略函数是这样做的) # forward the policy network and sample而不是仅仅 # forward the policy network and sa

浏览 21提问于2020-07-19得票数 0

回答已采纳

2回答

为什么策略梯度定理在强化学习中使用Q函数？

、

策略梯度算法的引入表明，策略算法是更好的算法，因为它直接优化策略，而不需要先计算Q。那么为什么他们在等式中使用Q呢？他们如何在不先计算Q函数的情况下直接计算整个东西？

浏览 5提问于2019-09-20得票数 1

1回答

为什么DQN的勘探不会导致不稳定？

、、、

为什么DQN中的行动探索不会导致不稳定？我的问题是，这种做法如何不导致不稳定？甚至epsilon的最终值(随机动作的概率)也是非零的！如果我们设置了最终的epsilon=0.01，我们会随机地在100次中选择一个动作，这意味着我们不会在不同的运行中得到相同的答案，而且我们的答案可能不稳定。为什

浏览 0提问于2018-09-10得票数 3

4回答

TD学习vs Q学习

、、、

在完美的信息环境中，我们能够知道动作后的状态，就像下棋一样，有什么理由使用Q学习而不是TD (时差)学习？据我所知，TD学习将尝试学习V(状态)值，但Q学习将学习Q(状态动作值)值，这意味着Q学习学习较慢(因为状态动作组合比状态更多)，对吗？

浏览 8提问于2016-02-26得票数 4

1回答

建议一个强化学习代理，以学习如何有效地切换位向量。

、、

它有10个可能的动作--每个动作将相应的位转换为1。切换一个0比1的位会得到1的奖励，但是尝试切换一个已经是1的位会得到-1的奖励并结束游戏。代理在每一步之后看到整个位向量。我遗漏了什么？这真的是一项艰巨的任务吗？

浏览 0提问于2017-09-18得票数 0

5回答

强化学习还是监督学习？

、

如果在强化学习(RL)算法在现实世界中工作之前，需要在模拟环境中进行大量迭代，为什么我们不使用相同的模拟环境来生成标记数据，然后使用监督学习方法而不是RL？

浏览 3提问于2018-11-14得票数 1

2回答

我选择强化学习的原因之一是为了在现场学习的能力，例如，调整以适应机械变化，如磨损的轮胎或车轮稍微偏离对齐。我的强化学习器在启动时恢复它最后保存的权重和重放缓冲区，所以它不需要每次我打开它时都重新训练。然而，我关心的一个问题是优化器。自从ADAM以来，优化器已经走过了很长的路，但我读到的所有东西和我看到的所有RL代码样本似乎仍然使用具有固定学习率的ADAM。我想利用一些优化器的进步，例如one cycle AdamW。我的一个想法是，也许可以采用一种单周期的方法进行初始训练，如果错误的变化表明某些东西发生了

浏览 3提问于2020-01-21得票数 0

7回答

AlphaGo政策网络与价值网络的差异

、

我读了一篇关于谷歌AlphaGo的高级摘要，我偶然发现了“策略网络”和“价值网络”这两个术语。在高层次上，我理解策略网络被用来建议移动，价值网络被用来，“缩小搜索树的深度( 和估计 )--每个位置的赢家，而不是一直搜索到游戏结束。” 这两个网络在我看来是多余的。如果策略网络没有使用值网络来修剪策略，那么它在做什么呢？很明显，价值网络是一个深度学习的神经网络；政策网络只是一个理论抽象，而不是一个实际的神经网络吗？价值网络的目标变量似乎是输赢。是否有<em

浏览 0提问于2016-03-28得票数 28

回答已采纳

2回答

深Q网络中的Q-学习方程

、、、、

我的问题是：事先谢谢，如果有些事

浏览 1提问于2018-05-29得票数 2

回答已采纳

1回答

寻找用于序列生成的RL解决方案

我正在为下列问题寻找适当的强化学习解决方案：当F(s') =真时，奖励+= 1每次序列增长一次，我就试着惩罚奖励我认为这是一个学习问题，并设想可以通过强化学习技术(如DQN )来解决这个问题。

浏览 0提问于2019-04-14得票数 2

回答已采纳

1回答

这是一种Q学习算法还是一种蛮力？

、、、

说了上千个游戏之后，它只对10%的动作进行了探索。所有其他动作都是基于对以前奖励的利用。奖励:如果比赛结果是胜利，那么奖励10分。如果比赛结果是平局，0分，否则-5分。这一点很重要，这样它就不会错过立即获胜的机会--如果对手错过了这样的一步，对手很可能会( a)移动到那里，以避免AI下次获胜；( b)认为该算法很愚蠢，因为它错过了一场“明显”的胜利。然而，根据https://www.cse.unsw.edu.au/~cs9417ml/RL1/tdlear

浏览 0提问于2018-03-10得票数 10

回答已采纳

1回答

建立一个深层次的神经网络，产生以多元标准正态分布分布的输出

、、、、

实际上，我有一些输入X，根据这个问题，可以假设它只是一个来自均匀分布的值的矩阵。我把输入输入到网络中，网络的体系结构目前可以改变。我认为要做到这一点，需要做的是选择正确的损失函数。为了做到这一点，我想到了两种方法：

浏览 2提问于2020-11-08得票数 0

4回答

>0和>=1之间有什么区别？

有什么理由让一些教授和程序员写而不是 if ( x > 0 )

浏览 3提问于2014-03-26得票数 9

回答已采纳

2回答

用长插曲优化深层Q网

、、、

因此，我们正在逐步学习一个矩阵( 100 * 10 )，在每一集中，我们需要对某些操作执行100*10次迭代。基本上，我们从1000名候选人中选择一个候选人，将此候选人放入矩阵中，并通过将整个矩阵作为输入来计算奖励函数：中心障碍是，在每一步的奖励函数计算是昂贵的，大约2分钟，每次我们更新一个条目的矩阵该函数F以矩阵作为输入，进行了非常

浏览 0提问于2019-05-17得票数 12

2回答

为什么A=Q而不是A=V？

、、

在大卫-希尔弗的RL课程-讲座7:政策梯度法中，大卫解释了什么是优势函数，以及Q(s，a)和V(s)之间的区别。状态值函数V^\pi(s)是在状态s中开始并随后跟随\pi时的预期返回。类似地，状态操作值函数Q^\pi(s, a)是在状态s中启动、采取操作a并随后跟踪策略\pi时的预期返回。那么，为什么将advantage函数定义为A = V - Q而</e

浏览 0提问于2018-09-01得票数 9

回答已采纳

7回答

四个无符号整数的散列函数(C++)

、、

我现在正在写一个程序，它产生四个无符号的32位整数作为某个函数的输出。我想散列这四个整数，这样我就可以将这个函数的输出与未来的输出进行比较。不过，我在编写一个像样的散列函数时遇到了麻烦。当我最初编写这段代码时，我抛出了四个整数中每个整数的简单加法，我知道这是不够的。我已经尝试了其他几种技术，比如移位和加法，但都没有用。我得到了一个哈希，但它的质量很差，而且这个函数会产生大量的冲突。有问题的函数会生成数十亿的散列，所

浏览 0提问于2009-11-30得票数 10

回答已采纳

2回答

操纵噪声，以正确的格式获取数据，并使用PPO将其应用于任务中。

、、、、

策略网(返回动作的网络)返回我的排序字符串(类似于："内(list1.index(min(List1)用于I在范围内(len(List1)")，我通过"eval“执行它，获得执行的时间，并使用这个时间来形成奖励但是这个任务更简单，在我的实际任务中，我有一些变量和函数，模型在生成排序字符串时可以使用它们。在我们的例子中，它可以是："list_1"，list_1 这就

浏览 0提问于2022-06-12得票数 3

回答已采纳

3回答

Prolog -这背后的逻辑是什么

reverse(L, RL):- reverse(L, [], RL).reverse([H|T], S, RL):- reverse(T, [H|S], RLconcat_reverse(L1,L2,L):-concat(L1,L2,LN),reverse(LN,L)下面是一个例子 5 ?

浏览 0提问于2011-05-27得票数 3

1回答

为什么我们在Flux/Redux体系结构中解耦动作和减速器？

、、

我已经使用了很长一段时间的Flux和Redux，我确实喜欢它们，我看到了它们的好处，但是有一个问题一直浮现在我的脑海中：将其看作是React组件的状态接口(setState，this.state)，而不是呈现部分。因此

浏览 1提问于2017-04-26得票数 5

1回答

深度强化学习的大动作空间

、

我知道在正常的深度强化学习(DRL)场景中，我们学习了一个深层神经网络来将当前状态映射到Q值。Q值的数目(神经网络输出的#)与可能的动作数相同，因此我们可以根据相关的Q值选择动作。然而，在本文"基于组合动作空间的深度强化学习预测流行Reddit线程“中，作者使用状态和动作作为输入。网络只输出一个Q值(见下图)。s_t是time的状态，t和a_t^i是time t的i^{\

浏览 0提问于2019-04-16得票数 6

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么策略梯度定理在强化学习中使用Q函数？

为什么DQN的勘探不会导致不稳定？

TD学习vs Q学习

建议一个强化学习代理，以学习如何有效地切换位向量。

强化学习还是监督学习？

最佳强化学习优化器

AlphaGo政策网络与价值网络的差异

深Q网络中的Q-学习方程

寻找用于序列生成的RL解决方案

这是一种Q学习算法还是一种蛮力？

建立一个深层次的神经网络，产生以多元标准正态分布分布的输出

>0和>=1之间有什么区别？

用长插曲优化深层Q网

为什么A=Q而不是A=V？

四个无符号整数的散列函数(C++)

操纵噪声，以正确的格式获取数据，并使用PPO将其应用于任务中。

Prolog -这背后的逻辑是什么

为什么我们在Flux/Redux体系结构中解耦动作和减速器？

深度强化学习的大动作空间

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐