强化学习代价函数

、、、

现在我的问题是我还不明白的:我如何计算成本函数，使其作为反向传播的起始梯度传播？我完全理解监督学习，但在这里我们没有任何标签来再次得分。我该如何开始优化网络？

浏览 25提问于2019-03-13得票数 0

1回答

逆强化学习的实际应用是什么？

、

逆强化学习是利用专家轨迹学习奖励函数。目前最成功的方法是最大熵逆强化学习。但在这一点上，你需要一个基于模型的强化学习。但世界上大多数实际问题都是无模型的，很难计算出状态转移概率。那么，我们如何在现实问题中使用这种逆强化学习呢？

浏览 0提问于2018-04-02得票数 3

回答已采纳

2回答

强化学习算法

、

我想用强化学习机器学习的方法来研究和开发一些应用。我已经熟悉使用监督学习的分类问题。谢谢!

浏览 0提问于2021-11-15得票数 0

回答已采纳

3回答

在深度强化学习中，神经网络的设计是否有经验法则？

、、

在深入学习中，我们可以用损失函数值来评估模型的性能，并通过K倍交叉验证等方法来提高模型的性能。但是，如何设计和优化神经网络在深度强化学习中的应用呢？我们可以用奖励等来评估强化学习算法本身的性能，但是如何保证神经网络在强化学习算法中的应用是好的还是坏的呢？

浏览 0提问于2019-02-08得票数 3

1回答

将RNN的隐藏状态传递给另一个RNN

、、

我正在使用强化学习教一个人工智能，一个奥地利纸牌游戏，与不完美的信息，称为施纳普森。对于不同的游戏状态，我有不同的神经网络(使用不同的特征)来计算值/策略。

浏览 0提问于2021-10-11得票数 1

2回答

为了编写一个简单的人工智能程序来玩游戏，我需要什么知识？

、、、、

我的课程之一是“机器学习入门”，我一直想在这门课上做一个个人项目。为了训练一个简单的人工智能程序来玩游戏，我需要获得什么知识？这是我目前在机器学习中所知道的-统计推断可能是近似正确的模型，包括泛化界和模型选择。支持向量机(SVM)促进弱学习者向强学习者学习: AdaBoost回归决策树决策树修剪与随机林

浏览 0提问于2017-01-04得票数 9

回答已采纳

1回答

如何比使用`ray.tune.Trainable`进行评估更频繁地记录日志

我对使用tune库进行强化学习很感兴趣，我想使用内置的tensorboard功能。但是，我用来调优超参数的指标是基于一个耗时的评估过程，应该不经常运行。或者，我是否可以从_train方法返回希望记录的值，但有时会从字典中省略计算代价高昂的指标？

浏览 9提问于2019-08-14得票数 0

回答已采纳

3回答

为什么RL被称为“强化”学习？

、、

我理解为什么机器学习是这样命名的，除此之外，还有监督学习和无监督学习背后的术语。那么，关于强化学习，reinforced是什么？

浏览 63提问于2018-05-28得票数 4

回答已采纳

2回答

如何在python中调用Javascript函数？

、、

我正在尝试用电子学和深度强化学习来做一个蛇的游戏。我用python和Javascript做的强化学习的东西。现在我如何在python中调用这样的函数呢？

浏览 3提问于2020-03-20得票数 0

1回答

我试图编程一个强化学习算法使用策略梯度，灵感来自。卡帕的例子只有上下两个动作，所以一个输出神经元就足够了(高activation=UP，低activation=DOWN)。我想把它扩展到多个动作，所以我相信我需要输出层上的softmax激活函数。但是，我不确定输出层的梯度应该是多少。如果我在监督学习环境中使用具有softmax激活的交叉熵损失函数，神经元的梯度就是：其中target[i] = 1用于所需的操作，0用于所有其他操作。为了用于强化</e

浏览 6提问于2017-05-10得票数 3

回答已采纳

1回答

基于监督数据集的强化学习

、、、

我试着做一个大学项目，我的问题是，我的教授让我在一个基本的监督数据集上做一个像RL这样的高级ML模型，我试图让他相信RL也是不合适的。是否有方法对基于时间的数据集执行RL？或者你建议什么型号(高级型号)？

浏览 2提问于2022-08-08得票数 0

1回答

监督学习与离线(批)强化学习

、

大多数材料(例如大卫·西尔弗的在线课程)我都能找到关于监督学习和强化学习之间关系的讨论。然而，它实际上是监督学习和在线强化学习的比较，在这种情况下，agent在环境中运行(或模拟交互)，以获得对底层动力学的有限知识的反馈。我对离线(批量)强化学习更感兴趣，在这里，数据集(收集的学习经验)是先验的。与监督学习相比，有什么不同？他们可能有哪些相似之处？

浏览 4提问于2021-08-14得票数 0

回答已采纳

1回答

为什么深层强化学习不能学会如何玩小行星？

、、

深入的Q-学习，A3C，政策进化的遗传算法，他们都没有学习小行星，或至少表现比人类差得多。根据RL的说法，从最艰难的Atari游戏来看，大部分的焦点都集中在蒙特祖马的复仇上，这显然受到了很少的奖励。以下是一些报告小行星上的坏结果的论文(有些文章互相引用)：深度强化学习的大规模并行学习方法基于深度强化学习的网络结构决斗优先

浏览 0提问于2018-02-16得票数 3

回答已采纳

1回答

如何在没有培训数据的情况下生成评等？

、、、

我想使用强化学习来学习与用户反馈的评级，但不确定如何做到这一点。有人能为这个问题提出一个相关的技术或算法吗？

浏览 0提问于2015-06-12得票数 0

1回答

基于模型和模型的强化学习

我正在学习强化学习，我发现了令人困惑的信息。我知道有两种不同类型的强化学习，基于模型和模型自由。在第二个图像中，可以看到TD学习，所以我不明白Td学习是另一种强化学习还是基于模型的。 📷

浏览 0提问于2022-02-21得票数 0

回答已采纳

7回答

如何实现深度强化学习（DQN）?

、、

DQN（Deep Q-Learning）可谓是深度强化学习（Deep Reinforcement Learning，DRL）的开山之作，是将深度学习与强化学习结合起来从而实现从感知（Perception）到动作（ Action ）的端对端（End-to-end）学习的一种全新的算法，该如何实现深度强化学习（DQN）呢?

浏览 3423提问于2018-10-10

2回答

神经网络中的Q-学习而不是学习

、、

我已经在这个神经网络中实现了Q-学习，然而，它并没有导致代理赢得更多的游戏时间(甚至在100万次游戏之后)。我将尝试用文字解释我做了什么，希望有人能发现一个错误，这可能导致这个问题。Q值是使用乙状结肠或RELU激活函数来确定的(我尝试了两者)。我的qValues似乎要么很低(按0.0001的顺序)，要么非常接近1

浏览 2提问于2016-10-19得票数 2

2回答

为什么要将马尔可夫性质引入强化学习？

、、

作为深度强化学习的初学者，我很困惑为什么我们应该在强化学习中使用马尔可夫过程，以及它给强化学习带来了什么好处。另外，马尔可夫过程要求在“已知”条件下，“现在”与“未来”无关。为什么一些深度强化学习算法可以使用RNN和LSTM？这是否违反了马尔可夫过程的假设？

浏览 4提问于2020-12-23得票数 0

1回答

寻找用于序列生成的RL解决方案

我正在为下列问题寻找适当的强化学习解决方案：当F(s') =真时，奖励+= 1每次序列增长一次，我就试着惩罚奖励我认为这是一个学习问题，并设想可以通过强化学习</em

浏览 0提问于2019-04-14得票数 2

回答已采纳

1回答

强化学习-从原始像素学习

、

为了进一步了解这些知识，我想探讨一下代理如何从原始像素中学习，并尝试使用H2O实现一个示例。我想使用Java。但是，我仍然需要弄清楚如何使用Java从游戏中流出图像像素，以帮助h2o RL代理学习。示例主要使用R和Python。

浏览 7提问于2017-05-08得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

逆强化学习的实际应用是什么？

强化学习算法

在深度强化学习中，神经网络的设计是否有经验法则？

将RNN的隐藏状态传递给另一个RNN

为了编写一个简单的人工智能程序来玩游戏，我需要什么知识？

如何比使用`ray.tune.Trainable`进行评估更频繁地记录日志

为什么RL被称为“强化”学习？

如何在python中调用Javascript函数？

当可能发生多个操作时，策略梯度是多少？

基于监督数据集的强化学习

监督学习与离线(批)强化学习

为什么深层强化学习不能学会如何玩小行星？

如何在没有培训数据的情况下生成评等？

基于模型和模型的强化学习

如何实现深度强化学习（DQN）?

神经网络中的Q-学习而不是学习

为什么要将马尔可夫性质引入强化学习？

寻找用于序列生成的RL解决方案

强化学习-从原始像素学习

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐