腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
通过强化
学习
学习
权重的神经
网络
中的行为和奖励是什么?
、
我想利用强化
学习
来训练一个递归神经
网络
,它可以预测输入的目标响应。 我理解状态在每一次都由
网络
输入来表示,但我不明白
如何
表示操作。神经
网络
是否应该通过一些公式来决定权重的取值?此外,当我们不知道每个输入神经元的目标反应时,我们应该
如何
创造奖励或惩罚来教导神经
网络
的权重呢?
浏览 4
提问于2016-05-21
得票数 0
1
回答
把进化论层作为强化
学习
输入来
学习
电子游戏是否可行?
、
、
比方说,你想在一个简单的2D游戏中应用强化
学习
。(例:超级马里奥)但如果没有,我会考虑将像素上的卷积层集成为RL
代理
的输入。当然,我们可以将任务分成两部分:图像的特征化和强化
学习
,我们可能需要对图像进行一些监督(这可能是有问题的,因为我们没有环境的抽象)。 同时
学习
图像数据的特征和
学习
游戏策略是一种可行的方法吗?
浏览 0
提问于2022-04-15
得票数 0
回答已采纳
1
回答
嗅探并拦截服务器中的数据包
、
、
我对nw-sniffing的概念还不熟悉。<所以,我将尝试用我所知道的最好的术语来描述这个问题>从哪里开始呢?请帮助我。提前谢谢。
浏览 0
提问于2009-12-20
得票数 0
回答已采纳
1
回答
训练前馈神经
网络
、
我有一个前馈神经
网络
,他的目标是
学习
如何
玩一个游戏(例如,连接4)。我想通过和自己玩游戏来训练我的神经
网络
。 我的问题是,我不知道
如何
训练我的神经
网络
。如果我有另一个好的算法来决定一个给定的板的最佳移动,在我的脑海中,它会更容易,但我不想
使用
这种方式。所以,我不知道移动是否是好的一步,我只知道哪一位玩家赢了(神经
网络
同时扮演两位玩家,但我知道是第一位还是第二位),以及在比赛中的动作。目前,我在Go中编写了一个程序,它初始化了一个神经
网络</em
浏览 1
提问于2016-07-06
得票数 0
回答已采纳
1
回答
为什么DQN的勘探不会导致不稳定?
、
、
、
我的问题是,这种做法
如何
不导致不稳定?甚至epsilon的最终值(随机动作的概率)也是非零的!
浏览 0
提问于2018-09-10
得票数 3
1
回答
将MQTT消息从AWS IOT核心发送到网站/webapp
、
遵循以下指南,我已成功将我的jetson nano连接到我的AWS帐户: 我现在想把这些MQTT消息发送到网站/webapp。有谁知道怎么做吗?谢谢
浏览 25
提问于2021-05-17
得票数 1
1
回答
关于二维迷宫中Q
学习
的几个问题
、
、
、
我刚读到关于Q
学习
的文章,我不确定我是否正确地理解了这一点。我看到的所有例子都是迷宫老鼠,老鼠必须向奶酪移动,而奶酪不能移动。我只是在想,在鼠标和奶酪都移动的情况下,是否有可能进行Q
学习
(因此,一个
代理
在追赶,另一个在逃跑)。 如果Q-
学习
在这种情况下不起作用,我们还有其他算法(贪婪的还是非贪婪的)可以工作吗?
浏览 2
提问于2019-12-07
得票数 2
1
回答
知识能否从深度
学习
模型转化为深层强化
学习
主体?
、
迁移
学习
是近年来强化
学习
研究的热点之一。然而,在文献中,大多数文章(我已经读过)都将知识从一个RL
代理
转移到另一个任务相似的RL
代理
。我的问题是,是否可以将
学习
从DL (而不是RL)模型转移到深度RL
代理
?例如,
使用
现有的DL模型作为DRL
代理
的Deep
网络
。有可能吗?因为据我所知,没有一篇论文
使用
这种方法,这就是为什么我有疑问的原因。
浏览 4
提问于2022-04-04
得票数 0
1
回答
一般情况下,你能用QLearning或强化
学习
插值吗?
、
我目前正在研究机器
学习
范例在寻路问题上的应用。我目前正在研究强化
学习
模式,我
使用
QLearning进行路径查找。由于QLearning的收敛速度太慢,我想知道是否可以用QLearning插值未探索状态的QValue,因为QLearning不
使用
模型?是否有可能在一般情况下进行强化,还是需要了解所有可能的状态?
浏览 0
提问于2018-04-18
得票数 0
回答已采纳
1
回答
强化(Q)
学习
:在生产中
学习
吗?
、
、
我有一个问题,我找不到答案: 在训练强化
学习
(
使用
DQN)的同时,我得到了下一次行动的最佳奖励模型。现在,如果我部署这个模型(即
使用
这个模型进行预测),它是否继续
学习
(即更新Q值)?
浏览 0
提问于2020-05-25
得票数 0
回答已采纳
1
回答
有可能训练出“分裂”输出的神经
网络
吗?
、
、
、
是否可以将一个神经
网络
的输出看作两个或多个输出集? 我可以
使用
唯一的神经
网络
来控制这两种
代理
吗?
代理
1有3个可执行动作,而
代理
2只有2个可执行动作。一个重要的事情是,
代理
人将必须合作,以获得最大的
浏览 0
提问于2019-06-05
得票数 0
回答已采纳
1
回答
强化
学习
的边界
、
、
、
、
我终于开发了一个游戏机器人,
学习
如何
玩游戏蛇与深度Q-
学习
。我尝试了不同的神经
网络
和超参数,我找到了一个工作装置,为一组特定的奖励。问题是:当我奖励
代理
人朝着正确的方向前进时--如果
代理
人的坐标与食物的坐标相应增加或减少,则奖励积极的奖励--
代理
人学得很快,获得很高的分数。当我不为此奖励
代理
人,而只奖励死亡和积极的食物吃,
代理
人不
学习
。国家考虑到附近是否有任何危险,如果食物是向上,向下,右或左,以及如果
代理<
浏览 0
提问于2018-09-20
得票数 1
回答已采纳
1
回答
FeedForward神经
网络
的训练
、
、
我已经实现了一个反向传播神经
网络
,现在我想实现一个前馈神经
网络
来比较它们的准确性。 我的问题是,Forward有哪些
学习
方法(除了反向传播),因为每一篇文章都提到反向传播作为
学习
方法。
浏览 3
提问于2015-03-31
得票数 1
回答已采纳
3
回答
在深度强化
学习
中,神经
网络
的设计是否有经验法则?
、
、
在深入
学习
中,我们可以用损失函数值来评估模型的性能,并通过K倍交叉验证等方法来提高模型的性能。但是,
如何
设计和优化神经
网络
在深度强化
学习
中的应用呢?我们可以用奖励等来评估强化
学习
算法本身的性能,但是
如何
保证神经
网络
在强化
学习
算法中的应用是好的还是坏的呢?
浏览 0
提问于2019-02-08
得票数 3
1
回答
神经
网络
输入高度相关
、
、
我正在构建一个神经
网络
,通过分析每0.1秒上传和下载的字节来预测视频是否是色情的,总共25.6秒。
浏览 0
提问于2018-04-29
得票数 2
1
回答
如何
在统一中
使用
TensorFlow
、
、
、
我试图实现一个深入强化
学习
IA与TensorFlow在一个检查游戏在团结。我该怎么做?我在谷歌上搜索过它,并找到了很多视频和教程,内容涉及
如何
使用
机器
学习
代理
和联合,以及其他解释
如何
在Unity导入经过TensorFlow训练的神经
网络
的人,但我没有看到任何与直接
使用
TensorFlow在Unity中创建(和训练)神经
网络
有关的内容。
浏览 0
提问于2019-10-10
得票数 1
回答已采纳
1
回答
C++
使用
Winsock对套接字进行写入/读取
、
、
、
、
我在Windows7上安装了Visual Studio Express,并且正在尝试在C++中创建一个TCP
代理
服务器。我现在有一个可以工作的服务器,但是,
使用
Internet Explorer中的
代理
设置,它将只发送和接收字节。我不能让它将数据写入我的屏幕。另外,谁能给我一个关于
如何
实现
代理
服务器的指南?我真的很感谢任何信息,教程,建议,或任何有用的东西。我是套接字编程的新手,网上似乎没有太多关于C++
代理
服务器的内容。基本上,尝试将其转换为
代理
服务器: 提前感谢!
浏览 1
提问于2011-12-03
得票数 0
1
回答
如果每一次,所有可能的状态都会发生变化,那么Q-
学习
如何
“
学习
”任何东西?
、
我找到了一个非常简单的例子来解释Q
学习
的这资源。把它变成一个二维问题,一个矩形而不是一条线,它仍然很简单。唯一的区别是,现在有两个可能的行动(上下)。我的问题是:如果长方形的长度和高度是随机的,以及宝物的起始位置和位置,那么机器人
如何
将所获得的知识应用到新的问题上?对于具有动态状态的问题,有一个进化的Q
学习
版本吗?
浏览 0
提问于2019-05-04
得票数 2
回答已采纳
4
回答
神经
网络
真的被抛弃了吗?
、
我计划
使用
神经
网络
来逼近强化
学习
算法中的值函数。我想这样做是为了对我
如何
表示状态和行为引入一些概括和灵活性。谢谢, 图努兹
浏览 6
提问于2011-08-02
得票数 6
回答已采纳
1
回答
作为Q值函数逼近器,
如何
提高前馈
网络
的性能?
、
、
、
我试图在n*n网格世界域中导航
代理
,
使用
Q-
学习
+前馈神经
网络
作为Q-函数逼近器。基本上,
代理
应该找到最佳/最短的方式来达到某一终端目标位置(+10奖励)。特工采取的每一步都会得到-1的奖励。在网格世界中,
代理
也应该避免某些位置(-10奖励,终端状态也是如此)。 到目前为止,我实现了一个Q
学习
算法,它将所有的Q值保存在一个Q表中,并且
代理
执行得很好。作为输入,我
使用
了一个nxn零矩阵,在
代理
当前的位置上有一
浏览 3
提问于2016-06-20
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
在真实游戏中使用机器学习代理
小白如何学习Python网络爬虫?学习步骤分享
如何使用机器学习来理解人类学习?
神经网络如何学习的?
小白如何学习Python网络爬虫?
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券