学习代理如何“学习使用网络”？ - 腾讯云开发者社区

、

我想利用强化学习来训练一个递归神经网络，它可以预测输入的目标响应。我理解状态在每一次都由网络输入来表示，但我不明白如何表示操作。神经网络是否应该通过一些公式来决定权重的取值？此外，当我们不知道每个输入神经元的目标反应时，我们应该如何创造奖励或惩罚来教导神经网络的权重呢？

浏览 4提问于2016-05-21得票数 0

1回答

把进化论层作为强化学习输入来学习电子游戏是否可行？

、、

比方说，你想在一个简单的2D游戏中应用强化学习。(例:超级马里奥)但如果没有，我会考虑将像素上的卷积层集成为RL代理的输入。当然，我们可以将任务分成两部分:图像的特征化和强化学习，我们可能需要对图像进行一些监督(这可能是有问题的，因为我们没有环境的抽象)。同时学习图像数据的特征和学习游戏策略是一种可行的方法吗？

浏览 0提问于2022-04-15得票数 0

回答已采纳

1回答

嗅探并拦截服务器中的数据包

、、

我对nw-sniffing的概念还不熟悉。<所以，我将尝试用我所知道的最好的术语来描述这个问题>从哪里开始呢？请帮助我。提前谢谢。

浏览 0提问于2009-12-20得票数 0

回答已采纳

1回答

我有一个前馈神经网络，他的目标是学习如何玩一个游戏(例如，连接4)。我想通过和自己玩游戏来训练我的神经网络。我的问题是，我不知道如何训练我的神经网络。如果我有另一个好的算法来决定一个给定的板的最佳移动，在我的脑海中，它会更容易，但我不想使用这种方式。所以，我不知道移动是否是好的一步，我只知道哪一位玩家赢了(神经网络同时扮演两位玩家，但我知道是第一位还是第二位)，以及在比赛中的动作。目前，我在Go中编写了一个程序，它初始化了一个神经网络</em

浏览 1提问于2016-07-06得票数 0

回答已采纳

1回答

为什么DQN的勘探不会导致不稳定？

、、、

我的问题是，这种做法如何不导致不稳定？甚至epsilon的最终值(随机动作的概率)也是非零的！

浏览 0提问于2018-09-10得票数 3

1回答

将MQTT消息从AWS IOT核心发送到网站/webapp

、

遵循以下指南，我已成功将我的jetson nano连接到我的AWS帐户：我现在想把这些MQTT消息发送到网站/webapp。有谁知道怎么做吗？谢谢

浏览 25提问于2021-05-17得票数 1

1回答

关于二维迷宫中Q学习的几个问题

、、、

我刚读到关于Q学习的文章，我不确定我是否正确地理解了这一点。我看到的所有例子都是迷宫老鼠，老鼠必须向奶酪移动，而奶酪不能移动。我只是在想，在鼠标和奶酪都移动的情况下，是否有可能进行Q学习(因此，一个代理在追赶，另一个在逃跑)。如果Q-学习在这种情况下不起作用，我们还有其他算法(贪婪的还是非贪婪的)可以工作吗？

浏览 2提问于2019-12-07得票数 2

1回答

知识能否从深度学习模型转化为深层强化学习主体？

、

迁移学习是近年来强化学习研究的热点之一。然而，在文献中，大多数文章(我已经读过)都将知识从一个RL代理转移到另一个任务相似的RL代理。我的问题是，是否可以将学习从DL (而不是RL)模型转移到深度RL代理？例如，使用现有的DL模型作为DRL代理的Deep网络。有可能吗？因为据我所知，没有一篇论文使用这种方法，这就是为什么我有疑问的原因。

浏览 4提问于2022-04-04得票数 0

1回答

一般情况下，你能用QLearning或强化学习插值吗？

、

我目前正在研究机器学习范例在寻路问题上的应用。我目前正在研究强化学习模式，我使用QLearning进行路径查找。由于QLearning的收敛速度太慢，我想知道是否可以用QLearning插值未探索状态的QValue，因为QLearning不使用模型？是否有可能在一般情况下进行强化，还是需要了解所有可能的状态？

浏览 0提问于2018-04-18得票数 0

回答已采纳

1回答

强化(Q)学习:在生产中学习吗？

、、

我有一个问题，我找不到答案：在训练强化学习(使用DQN)的同时，我得到了下一次行动的最佳奖励模型。现在，如果我部署这个模型(即使用这个模型进行预测)，它是否继续学习(即更新Q值)？

浏览 0提问于2020-05-25得票数 0

回答已采纳

1回答

有可能训练出“分裂”输出的神经网络吗？

、、、

是否可以将一个神经网络的输出看作两个或多个输出集? 我可以使用唯一的神经网络来控制这两种代理吗? 代理1有3个可执行动作，而代理2只有2个可执行动作。一个重要的事情是，代理人将必须合作，以获得最大的

浏览 0提问于2019-06-05得票数 0

回答已采纳

1回答

强化学习的边界

、、、、

我终于开发了一个游戏机器人，学习如何玩游戏蛇与深度Q-学习。我尝试了不同的神经网络和超参数，我找到了一个工作装置，为一组特定的奖励。问题是:当我奖励代理人朝着正确的方向前进时--如果代理人的坐标与食物的坐标相应增加或减少，则奖励积极的奖励--代理人学得很快，获得很高的分数。当我不为此奖励代理人，而只奖励死亡和积极的食物吃，代理人不学习。国家考虑到附近是否有任何危险，如果食物是向上，向下，右或左，以及如果代理<

浏览 0提问于2018-09-20得票数 1

回答已采纳

1回答

FeedForward神经网络的训练

、、

我已经实现了一个反向传播神经网络，现在我想实现一个前馈神经网络来比较它们的准确性。我的问题是，Forward有哪些学习方法(除了反向传播)，因为每一篇文章都提到反向传播作为学习方法。

浏览 3提问于2015-03-31得票数 1

回答已采纳

3回答

在深度强化学习中，神经网络的设计是否有经验法则？

、、

在深入学习中，我们可以用损失函数值来评估模型的性能，并通过K倍交叉验证等方法来提高模型的性能。但是，如何设计和优化神经网络在深度强化学习中的应用呢？我们可以用奖励等来评估强化学习算法本身的性能，但是如何保证神经网络在强化学习算法中的应用是好的还是坏的呢？

浏览 0提问于2019-02-08得票数 3

1回答

神经网络输入高度相关

、、

我正在构建一个神经网络，通过分析每0.1秒上传和下载的字节来预测视频是否是色情的，总共25.6秒。

浏览 0提问于2018-04-29得票数 2

1回答

如何在统一中使用TensorFlow

、、、

我试图实现一个深入强化学习IA与TensorFlow在一个检查游戏在团结。我该怎么做？我在谷歌上搜索过它，并找到了很多视频和教程，内容涉及如何使用机器学习代理和联合，以及其他解释如何在Unity导入经过TensorFlow训练的神经网络的人，但我没有看到任何与直接使用TensorFlow在Unity中创建(和训练)神经网络有关的内容。

浏览 0提问于2019-10-10得票数 1

回答已采纳

1回答

C++使用Winsock对套接字进行写入/读取

、、、、

我在Windows7上安装了Visual Studio Express，并且正在尝试在C++中创建一个TCP代理服务器。我现在有一个可以工作的服务器，但是，使用Internet Explorer中的代理设置，它将只发送和接收字节。我不能让它将数据写入我的屏幕。另外，谁能给我一个关于如何实现代理服务器的指南？我真的很感谢任何信息，教程，建议，或任何有用的东西。我是套接字编程的新手，网上似乎没有太多关于C++代理服务器的内容。基本上，尝试将其转换为代理服务器：提前感谢！

浏览 1提问于2011-12-03得票数 0

1回答

如果每一次，所有可能的状态都会发生变化，那么Q-学习如何“学习”任何东西？

、

我找到了一个非常简单的例子来解释Q学习的这资源。把它变成一个二维问题，一个矩形而不是一条线，它仍然很简单。唯一的区别是，现在有两个可能的行动(上下)。我的问题是:如果长方形的长度和高度是随机的，以及宝物的起始位置和位置，那么机器人如何将所获得的知识应用到新的问题上？对于具有动态状态的问题，有一个进化的Q学习版本吗？

浏览 0提问于2019-05-04得票数 2

回答已采纳

4回答

神经网络真的被抛弃了吗？

、

我计划使用神经网络来逼近强化学习算法中的值函数。我想这样做是为了对我如何表示状态和行为引入一些概括和灵活性。谢谢, 图努兹

浏览 6提问于2011-08-02得票数 6

回答已采纳

1回答

作为Q值函数逼近器，如何提高前馈网络的性能？

、、、

我试图在n*n网格世界域中导航代理，使用Q-学习+前馈神经网络作为Q-函数逼近器。基本上，代理应该找到最佳/最短的方式来达到某一终端目标位置(+10奖励)。特工采取的每一步都会得到-1的奖励。在网格世界中，代理也应该避免某些位置(-10奖励，终端状态也是如此)。到目前为止，我实现了一个Q学习算法，它将所有的Q值保存在一个Q表中，并且代理执行得很好。作为输入，我使用了一个nxn零矩阵，在代理当前的位置上有一

浏览 3提问于2016-06-20得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

通过强化学习学习权重的神经网络中的行为和奖励是什么？

把进化论层作为强化学习输入来学习电子游戏是否可行？

嗅探并拦截服务器中的数据包

训练前馈神经网络

为什么DQN的勘探不会导致不稳定？

将MQTT消息从AWS IOT核心发送到网站/webapp

关于二维迷宫中Q学习的几个问题

知识能否从深度学习模型转化为深层强化学习主体？

一般情况下，你能用QLearning或强化学习插值吗？

强化(Q)学习:在生产中学习吗？

有可能训练出“分裂”输出的神经网络吗？

强化学习的边界

FeedForward神经网络的训练

在深度强化学习中，神经网络的设计是否有经验法则？

神经网络输入高度相关

如何在统一中使用TensorFlow

C++使用Winsock对套接字进行写入/读取

如果每一次，所有可能的状态都会发生变化，那么Q-学习如何“学习”任何东西？

神经网络真的被抛弃了吗？

作为Q值函数逼近器，如何提高前馈网络的性能？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐