腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
设置
Q
学习
的
状态
空间
?
、
、
这显然是非常明显和基本
的
,因为我在上面找不到任何教程,但是我
如何
为
q
-learning环境
设置
状态
空间
? 如果我理解正确的话,每个
状态
都需要与单个值相关联,对吧?一旦我有了
状态
空间
,我该
如何
改变
状态
呢?假设它基于3个变量,V1 V2和V3。
Q
学习
算法只接收这种
状态
的
单个数字表示,对吗?
如何
使用变量和
状态
浏览 33
提问于2020-05-09
得票数 0
回答已采纳
1
回答
AI玩家表现不好吗?为什么?
、
、
、
我正在尝试实现一个使用
Q
学习
来玩
的
代理。我用一个电子贪婪
的
动作选择器来训练它,它
的
感应器为0.1,
学习
率为0.6,折扣率为0.8。 我跑了大约50K步
的
比赛,一场比赛都没有赢过。这是令人费解
的
,因为
Q
表似乎与我想要
的
是相当准确
的
。为什么我会输给随机玩家呢?如果
q
表没有发生那么大
的
变化,系统不应该赢吗?一般来说,我需要训练我
的
代理人多少次迭代?可能
浏览 3
提问于2016-05-24
得票数 0
回答已采纳
1
回答
Q
学习
中
的
探索: Epsilon贪婪与探索功能
、
我正在努力了解
如何
确保我们
的
代理在开发它所知道
的
信息之前,对
状态
空间
进行足够
的
探索。我知道,我们使用贪婪
的
epsilon方法和一个衰败
的
epsilon来实现这一点。然而,我遇到了另一个概念,即使用探索函数来确保我们
的
代理探索
状态
空间
。用Epsilon贪婪
的
Q
学习
sample = R(s,a,s') + \gamma \max_{a
浏览 0
提问于2021-05-05
得票数 3
回答已采纳
1
回答
Q
-Learning
的
泛化函数
、
、
我不得不在
Q
Learning上做一些工作,讲的是一个不得不在房子里搬家具的人(基本上就是这样)。如果房子足够小,我可以只有一个表示行动/奖励
的
矩阵,但随着房子变大,这是不够
的
。我
的
老师建议我不只使用一个,而是多个,这样我就可以比较它们,等等。你们推荐什么? 我听说在这种情况下,人们使用支持向量机,也可以使用神经网络。我不是真的在场内,所以我不能说。我过去有过一些使用神经网络
的
经验,但SVM似乎更难掌握。有没有其他我应该寻找
的
方法?我知道肯定有无数这样
的
东西,
浏览 6
提问于2009-10-09
得票数 1
回答已采纳
1
回答
当并非所有操作都可用时,RL代理有哪些解决方案?
我是在RL环境中工作
的
,在这个环境中,并非所有的操作都可用。在这种情况下,根据环境所在
的
状态
,代理无法选择某些操作。我可以找到处理这种情况
的
工作:https://ojs.aaai.org/index.php/AAAI/article/view/5740 在继续并开始实现它之前,我想问您是否有其他解决方案
的
建议来处理这样
的
场景任何指针我都会感激
的
。
浏览 0
提问于2021-01-31
得票数 0
1
回答
如果在强化
学习
中
状态
空间
是连续
的
,那么策略是什么?
我最近从强化
学习
开始。当涉及到连续
空间
时,我对代理人
的
政策没有什么疑问。根据我
的
理解,策略告诉代理执行特定
状态
的
动作。当涉及到迷宫
的
例子时,这是有意义
的
,在这个迷宫中,
状态
空间
是有限
的
。如果
状态
空间
是连续
的
,那么代理会在
状态
空间
中获得每个可能
状态
的
信息吗?此外,RL代理是否能
浏览 0
提问于2019-04-18
得票数 1
回答已采纳
1
回答
Tensorflow tf.reduce_min
如何
从某些索引而不是整个张量中获取最小值
、
我正在尝试使用tensorflow
学习
DQN。在我
的
操作
空间
中,每个
状态
都有有效和无效
的
操作。我将
q
_target网络
设置
为
q
_next = tf.layers.dense(t1,n_actions, w,b, name='t2')<
浏览 1
提问于2020-02-08
得票数 1
1
回答
关于深层
Q
学习
的
几个问题
、
、
我读了几本关于深度
Q
学习
的
材料,我不确定我是否完全理解它。据我所知,深度
Q
学习
似乎更快地计算
Q
值,而不是通过使用NN进行回归、计算损失和反向传播错误来更新权重而将它们放在表上。然后,在测试场景中,它接受一个
状态
,NN将为该
状态
下
的
每个操作返回几个
q
值。然后,选择
Q
值最高
的
动作在该
状态
下执行. 我唯一
的
问题是权重是
如何
更新
浏览 3
提问于2019-06-26
得票数 2
回答已采纳
1
回答
使用
Q
-Learning算法
的
目的
、
、
使用
Q
-Learning
的
意义是什么?我使用了一个示例代码,表示2D棋盘上
的
棋子在此棋盘上移动。在董事会
的
右端有我们想要达到
的
目标。在算法完成后,我有一个
Q
表,其中
的
值被分配给每个
状态
-动作交汇点。这一切都是为了让这个
Q
表看看哪些
状态
-动作(哪些动作在特定
状态
下是最好
的
)对是最有用
的
?这就是我现在所理解
的
。我说
的
对吗?
浏览 1
提问于2018-04-10
得票数 0
1
回答
带Galaga定义
状态
的
Q
学习
我正在致力于
Q
-Learning
的
实现,以构建一个玩Galaga的人工智能。我知道
Q
-learning需要
状态
和动作,并需要表格来确定
状态
之间
的
移动。
Q
-Learning online
的
所有示例和教程似乎都是用于基于网格
的
游戏,具有易于定义
的
状态
。但Galaga涉及左右移动和向上射击,敌人在整个游戏过程中随机移动。因此,我在定义
Q
-Learning算法中
的
浏览 1
提问于2018-04-20
得票数 0
1
回答
深度强化
学习
的
大动作
空间
、
我知道在正常
的
深度强化
学习
(DRL)场景中,我们
学习
了一个深层神经网络来将当前
状态
映射到
Q
值。
Q
值
的
数目(神经网络输出
的
#)与可能
的
动作数相同,因此我们可以根据相关
的
Q
值选择动作。然而,在本文"基于组合动作
空间
的
深度强化
学习
预测流行Reddit线程“中,作者使用
状态
和动作作为输入。网络只输出一个
Q
值(
浏览 0
提问于2019-04-16
得票数 6
1
回答
关于二维迷宫中
Q
学习
的
几个问题
、
、
、
我刚读到关于
Q
学习
的
文章,我不确定我是否正确地理解了这一点。我看到
的
所有例子都是迷宫老鼠,老鼠必须向奶酪移动,而奶酪不能移动。我只是在想,在鼠标和奶酪都移动
的
情况下,是否有可能进行
Q
学习
(因此,一个代理在追赶,另一个在逃跑)。 如果
Q
-
学习
在这种情况下不起作用,我们还有其他算法(贪婪
的
还是非贪婪
的
)可以工作吗?此外,是否有正式/学术名称
的
情况?我想找一些关于这个问题<em
浏览 2
提问于2019-12-07
得票数 2
1
回答
连续
状态
和动作
空间
的
强化
学习
、
、
、
问题行动者-批评家方法应该有效,但它通常(或总是)应用于离散和低维
状态
空间
浏览 1
提问于2019-01-05
得票数 2
回答已采纳
1
回答
连续
状态
和动作
空间
的
强化
学习
、
、
问题 我
的
目标是应用强化
学习
来预测在三维环境中已知力下物体
的
下一个
状态
(这种方法将被简化为监督
学习
,离线
学习
)。深确定性策略梯度适用于连续
的
操作
空间
,但在我
的
例子中,我也有一个连续
的
状态
空间
。)应用于离散和低维
状态
空间
。
Q
学习
和深度
Q
学习
不能处理高维
状态
<e
浏览 0
提问于2019-01-05
得票数 5
回答已采纳
2
回答
基于神经网络
的
Q
-
学习
、
、
、
、
我正在尝试实现一个乒乓球游戏
的
深层
Q
学习
算法。我已经实现了
Q
学习
,使用表作为
q
-函数。它工作非常好,并
学习
如何
在10分钟内击败天真的人工智能。但我不能用神经网络作为
Q
函数逼近器。我想知道我是否在正确
的
轨道上,以下是我所做
的
事情
的
总结: 我使用一个多层感知器作为
Q</e
浏览 4
提问于2016-09-26
得票数 5
1
回答
Q
-
学习
算法会变得过度训练吗?
、
、
证明了
Q
-
学习
算法收敛于最优策略
的
Qs是唯一
的
。那么,得出
Q
-
学习
算法不能被过度训练
的
结论是正确
的
吗?
浏览 3
提问于2016-09-04
得票数 1
回答已采纳
2
回答
函数近似:平铺编码与高度离散
的
状态
空间
有何不同?
、
、
、
我从连续
状态
空间
的
离散化过渡到函数近似。我
的
动作和
状态
空间
(3D)都是连续
的
。我
的
问题主要是由于混叠错误和长期训练后几乎没有收敛。另外,我不知道
如何
选择合适
的
步长进行离散化。阅读Sutton & Barto帮助我理解了平铺编码
的
力量,也就是有
状态
空间
描述
的
多个副词互相重叠。给定一个连续
的
查询/
状态</e
浏览 3
提问于2016-05-04
得票数 8
回答已采纳
1
回答
带健身房
的
Q
表(使用盒子观察
空间
)
、
、
我正在尝试使用这个观察
空间
运行
Q
学习
算法:当我尝试访问
Q
表时,如下所示:我得到了这个错误: IndexError: arrays used
浏览 12
提问于2021-04-01
得票数 1
1
回答
强化
学习
(
Q
学习
)
我正在阅读一篇关于traffic流优化
的
论文,使用多Agent
Q
学习
。本文提出了以下方法:在每个交叉口
设置
一个带有交通灯
的
强化
学习
控制器。首先,
Q
值方程是:第二,
状态
是:当前交叉口和一个跳跃交叉口
的
车辆队列长度之和第三,行动
空间
浏览 0
提问于2018-03-04
得票数 1
回答已采纳
1
回答
实现近似(特征)
Q
学习
的
几个问题
、
、
、
我刚开始强化
学习
。我最近
学习
了近似
Q
学习
,或者说基于特征
的
Q
学习
,在这种
学习
中,您可以通过特性来描述
状态
以节省
空间
。我尝试在一个简单
的
网格游戏中实现这一点。下面是使用
的
网格:.f.f...f 在这里,一个信号显示了特工
的
起始位置。现在,在实现时,我
设置
了两个特性。如果它进入了一个已经被访问过
的
非火种位置(
浏览 0
提问于2019-04-06
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
微信状态bot如何设置?
如何利用状态/感觉空间生成趋势/知觉空间
企点客服如何设置客户跟进状态?
QQ空间如何设置3天可见
时间序列分析中的状态估计:状态空间模型与卡尔曼滤波的隐状态估计
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券