腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
当
使用
多个
帧
作为
输
入时
,
如何
从
Q
学习
中
的
矩阵
中
选择
动作
、
、
、
、
当
使用
深度
Q
学习
时,我试图通过传递一些灰度
帧
作为
输入来捕捉运动,每个灰度
帧
的
尺寸为90x90。将传入四个90x90
帧
,以允许网络检测运动。
多个
帧
应该被认为是一个单独
的
状态,而不是一批4个状态,我
如何
才能获得
动作
的
向量
作为
结果而不是
矩阵
? 我正在
使用
pytorch,它将返回一个
浏览 21
提问于2020-06-21
得票数 1
1
回答
如何
将
Q
-
学习
应用到OpenAI-健身房环境
中
,在每个时间步骤
中
采取多种行动?
、
、
、
我已经成功地
使用
Q
-
学习
解决了一些经典
的
OpenAI健身房强化
学习
环境(即出租车,CartPole)。这些环境允许在每个时间步骤
中
执行单个操作。但是,我无法找到一种解决问题
的
方法,即在每个时间步骤同时采取
多个
操作。例如,在Roboschool环境
中
,必须在每个时间步骤中指定两个扭矩值--每个轴一个。问题是,
Q
矩阵
是由(状态,
动作
)对构建
的
。但是,如果同时执行<em
浏览 0
提问于2019-04-05
得票数 4
1
回答
Q
为路道游戏
学习
?
、
我现在正试图实现一个人工智能玩家
使用
Q
-
学习
来玩两个不同
的
随机玩家。我已经为游戏定义了11个州。每个状态是根据其他参与者
的
位置来定义
的
。 我可能
的
动作
是6,(受骰子
的
限制)。理论上,我可以有四种不同
的
状态(每个Ludo令牌一种),它们可以执行骰子
选择
的
<e
浏览 0
提问于2016-05-19
得票数 3
回答已采纳
2
回答
Q
学习
转移
矩阵
、
、
我正在尝试找出
如何
在网格世界
的
例子
中
实现
Q
学习
。我相信我理解
Q
学习
的
基本原理,但它似乎没有给我正确
的
价值观。 这个例子来自Sutton和Barton关于强化
学习
的
书。网格世界是这样指定
的
,即智能体可以在任何给定
的
状态下以相等
的
概率采取
动作
{N,E,W,S},并且所有
动作
的
奖励都是0,除非智能体
浏览 1
提问于2015-04-24
得票数 0
1
回答
基于神经网络
的
幕式半梯度Sarsa
、
、
在尝试实现Episodic Semi-gradient Sarsa with神经网络
作为
逼近器时,我想知道
如何
根据当前
学习
到
的
网络权重来
选择
最优
动作
。如果
动作
空间是离散
的
,我只需计算当前状态下不同
动作
的
估计值,就可以
选择
给出最大值
的
动作
。但这似乎不是解决问题
的
最佳办法。此外,如果
动作
空间可以是连续
的
(例如,自动
浏览 6
提问于2017-07-28
得票数 6
回答已采纳
3
回答
Q
-learning和Value迭代有什么不同?
、
、
、
Q
学习
与强化
学习
中
的
值迭代有何不同? 我知道
Q
- (s, a, s', r)是无模型
的
,训练样本是转换
学习
。但是,既然我们知道
Q
学习
中
的
转变和每个转变
的
奖励,它不是与基于模型
的
学习
相同吗?在基于模型
的
学习
中
,我们知道状态和
动作
对
的
浏览 2
提问于2015-03-09
得票数 35
回答已采纳
2
回答
Q
学习
(多目标)
、
、
、
、
我刚刚开始研究
Q
-learning,并且看到了
使用
Q
-learning来解决我
的
问题
的
可能性。我在
Q
学习
中
研究
的
是,大多数时候你有一个目标(只有一个状态
作为
目标),这使得智能体更容易
学习
并从R
矩阵
创建
Q
矩阵
。现在,在我
的
问题中,我有许多目标(许多状态充当目标,需要检测)。我不知道
如何
设计状态,
如何</e
浏览 6
提问于2013-11-15
得票数 2
2
回答
深
Q
网络
中
的
Q
-
学习
方程
、
、
、
、
我对强化
学习
一点也不熟悉,所以我可能错了。 这个方程是反复出现
的
吗?假设我
使用
DQN来玩Atari突破,可能
的
状态数很大(假设状态是单个游戏
的
框架),所以创建所有
q
值
的
矩阵
是不有效
的
。方程应该更新
浏览 1
提问于2018-05-29
得票数 2
回答已采纳
2
回答
强化
学习
、ϵ-贪婪方法与最优行为
在强化
学习
中
,为什么我们应该按照ϵ-贪婪
的
方法
选择
行动,而不是总是
选择
最优
的
行动?
浏览 1
提问于2018-04-22
得票数 0
回答已采纳
1
回答
RL特工,怎么禁止行动?
在
Q
-
学习
中
,
如何
告诉代理
动作
$a_7$
从
状态$s_{t}$
中
不可用? 提供一个非常大
的
负面回报是好
的
,还是可能使它偏离轨道?据我所读到
的
(链接),最好是工作
的
小回报( -1.0到1.0之间)。
浏览 0
提问于2018-08-28
得票数 2
回答已采纳
1
回答
深度强化
学习
的
大
动作
空间
、
我知道在正常
的
深度强化
学习
(DRL)场景
中
,我们
学习
了一个深层神经网络来将当前状态映射到
Q
值。
Q
值
的
数目(神经网络输出
的
#)与可能
的
动作
数相同,因此我们可以根据相关
的
Q
值
选择
动作
。然而,在本文"基于组合
动作
空间
的
深度强化
学习
预测流行Reddit线程“
中
,作者
浏览 0
提问于2019-04-16
得票数 6
1
回答
Q
学习
教程困惑
、
我对任何机器
学习
方法都很陌生,我想我会尝试一下
Q
-
学习
。所以我一直在读这篇文章:
Q
(1, 5) = R(1, 5) + 0.8 * Max[
Q
(5, 1),
Q
(5, 4),
Q
(5, 5)] = 100 + 0.8 * 0 =100
浏览 0
提问于2015-09-03
得票数 1
回答已采纳
4
回答
没有最终状态
的
Q
-
学习
是可能
的
吗?
、
、
我必须用
Q
-
学习
来解决这个问题。嗯,实际上我得根据它来评估一项基于
Q
学习
的
政策。我有n酒店,每个酒店都可以容纳不同数量的人。我在酒店里
的
每一个人,我都会得到奖励,根据我
选择
的
房间。把新来的人。 我
的
奖励
矩阵</em
浏览 3
提问于2014-04-19
得票数 3
回答已采纳
1
回答
政策梯度方法和基于神经网络
的
行动值方法有什么区别?
、
、
、
政策梯度方法和基于神经网络
的
行动值方法有什么区别?
浏览 0
提问于2018-05-05
得票数 3
回答已采纳
1
回答
问-
学习
:你能向后移动吗?
、
、
、
、
我正在查看一个样本考试,有一个关于
Q
-
学习
的
问题,我已经把它包括在下面。在第三步
中
,为什么所采取
的
操作是“正确”而不是“向上”(回到A2)。看来,返回到A2
的
Q
值为0.18,向右
的
Q
值为0.09。编辑:还有,为什么2,C
的
奖励值为2
的
行动‘权利’,即使那里有一堵墙,不可能去,对吗?我们是否只是假设这不是一个可能
的
移动,而忽略它
的
Q
值?Edit2:
浏览 9
提问于2014-03-22
得票数 1
回答已采纳
1
回答
Q
学习
中
的
探索: Epsilon贪婪与探索功能
、
我正在努力了解
如何
确保我们
的
代理在开发它所知道
的
信息之前,对状态空间进行足够
的
探索。我知道,我们
使用
贪婪
的
epsilon方法和一个衰败
的
epsilon来实现这一点。然而,我遇到了另一个概念,即
使用
探索函数来确保我们
的
代理探索状态空间。用Epsilon贪婪
的
Q
学习
sample = R(s,a,s') + \gamma \max_{a'}
Q
(s&
浏览 0
提问于2021-05-05
得票数 3
回答已采纳
1
回答
一般情况下,你能用QLearning或强化
学习
插值吗?
、
我目前正在研究机器
学习
范例在寻路问题上
的
应用。我目前正在研究强化
学习
模式,我
使用
QLearning进行路径查找。
当
状态不多时,QLearning似乎运行良好,但一旦环境变得更大,状态越多,它
的
性能就越差。由于QLearning
的
收敛速度太慢,我想知道是否可以用QLearning插值未探索状态
的
QValue,因为QLearning不
使用
模型?是否有可能在一般情况下进行强化,还是需要了解所有可能
的
状态?
浏览 0
提问于2018-04-18
得票数 0
回答已采纳
1
回答
神经网络
q
学习
在tic
中
的
应用--
如何
使用
阈值
、
、
我目前正在编程一个
Q
学习
神经网络tha不工作。我以前问过一个关于投入
的
问题,并且已经解决了这个问题。我目前对于程序为什么不能工作
的
想法是与阈值有关。这是一个神经网络-
Q
学习
的
具体变量.基本上,这个值介于0到1之间,然后你在0到1之间做一个随机数,如果这个随机数大于阈值,那么你就
选择
一个完全随机
的
选择
,否则神经网络通过找到最大
的
Q
值来
选择
。我
的
问题
浏览 0
提问于2018-01-13
得票数 3
回答已采纳
1
回答
连续
动作
-状态-空间和平铺
、
在习惯了离散
动作
-状态-空间中
的
Q
-Learning算法之后,我现在想将其扩展到连续空间。为了做到这一点,我阅读了萨顿介绍
中
的
On-Policy Control with Approximation一章。这里,推荐
使用
像线性函数或ANN这样
的
可微函数来解决连续
动作
状态空间
的
问题。然而,Sutton随后描述了将连续变量映射到离散表示
的
平铺方法。这总是必要
的
吗? 为了理解这些方法,我尝试在没有平铺方法和
浏览 5
提问于2017-07-26
得票数 2
1
回答
电力管理
中
的
强化
学习
、
、
我正在处理一个电源管理问题,在这个问题上,我根据事件
的
发生控制计算板
的
电源管理。我
使用
强化
学习
(传统
的
Q
-
学习
)进行电源管理,其中计算板
作为
服务提供者(SP)处理请求(映像)。我也有一个基于人工神经网络
的
工作量估计器,它将当前
的
工作量分类为低工作量或高工作量。因此,
Q
-
学习
算法
的
状态空间包括
Q
(s,a)
的
组合,其中s=(SR,S
浏览 5
提问于2012-06-17
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
用强化学习玩《超级马里奥》
【攻克Dota2基础算法】讲讲深度Q学习
深度Q学习:一步步实现能玩《毁灭战士》的智能体
深度Q学习带你一步步实现能玩《毁灭战士》的智能体
深度强化学习实战:训练DQN模型玩超级马里奥兄弟
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券