腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
强化
学习
--
分层
环境
下
的
早期
探索
问题
、
、
所以我有两个算法: HER (带一点自我监督
的
RL)和HAC (
分层
RL)。
环境
被挑选和放置。HAC 快速总结HAC
的
工作原理:两个级别(高和低),高级别生成一个目标(x,y,z),其中必须移动机器人末端执行器。低层以这些目标为目标作用于
环境
。高水平每H步产生一个新目标。这是我
的
问题
在她中,第一个时期
的
渲染看起来很平滑,在HAC中缓慢移动(如刻意
探索
)仅在50升(1时期= 2000升)之后高级模型总是输出最大动作(1,1,-1,1)
浏览 27
提问于2020-11-04
得票数 0
2
回答
深度Q网络给出相同
的
Q值,但没有改进
、
、
、
、
我遇到了一个
问题
,智能体不
学习
,它在训练周期结束时
的
表现是反复杀死自己。经过一点调试,我发现网络预测
的
Q值每次都是相同
的
。动作空间是上,右,
下
,左,网络预测0,0,1,0。训练损失确实会随着时间
的
推移而下降,但似乎没有什么不同。batch_size = 2max_steps = 100000 target_update = 100 我已经让它训练了整整1000集,在最后它是相当糟糕
的
。编辑:忘记提到,智能体走向
浏览 50
提问于2019-12-30
得票数 1
1
回答
用选择
的
移动反馈来训练分类器,而不是真正
的
标签。
、
我很难用一句话来描述我想要
的
东西,这可能就是我在Google上运气不佳
的
原因。然而,我所拥有的培训数据只是状态,已经采取
的
行动,以及是否有好
的
或坏
的
结果。如果选择
的
移动是不好
的
,我不
浏览 0
提问于2015-07-26
得票数 3
1
回答
强化
学习
中
探索
/利用
的
最佳实践
、
我
的
问题
是在我对PyTorch DQN教程中
的
代码进行检查后提出
的
,但随后又提到了
强化
学习
:
强化
学习
中最佳
探索
/利用
的
最佳实践是什么?这可能适用于本教程中介绍
的
CartPole
问题
-
早期
的
片段可能非常短,任务相当简单-但对于需要更多
探索
的
更复杂
的
问题
呢?例如,如果我
浏览 22
提问于2019-02-04
得票数 0
回答已采纳
1
回答
一般情况
下
,你能用QLearning或
强化
学习
插值吗?
、
我目前正在研究机器
学习
范例在寻路
问题
上
的
应用。我目前正在研究
强化
学习
模式,我使用QLearning进行路径查找。当状态不多时,QLearning似乎运行良好,但一旦
环境
变得更大,状态越多,它
的
性能就越差。由于QLearning
的
收敛速度太慢,我想知道是否可以用QLearning插值未
探索
状态
的
QValue,因为QLearning不使用模型?是否有可能在一般情况
下
进行
强化
,还是需要了
浏览 0
提问于2018-04-18
得票数 0
回答已采纳
1
回答
监督
学习
与离线(批)
强化
学习
、
大多数材料(例如大卫·西尔弗
的
在线课程)我都能找到关于监督
学习
和
强化
学习
之间关系
的
讨论。然而,它实际上是监督
学习
和在线
强化
学习
的
比较,在这种情况
下
,agent在
环境
中运行(或模拟交互),以获得对底层动力学
的
有限知识
的
反馈。我对离线(批量)
强化
学习
更感兴趣,在这里,数据集(收集
的
学习
经验)是先验
浏览 4
提问于2021-08-14
得票数 0
回答已采纳
2
回答
操纵噪声,以正确
的
格式获取数据,并使用PPO将其应用于任务中。
、
、
、
、
警告: 我知道我
的
问题
可能显得奇怪、愚蠢和不可能,但让我们想想这个有趣
的
问题
。我不会问这样
的
问题
:如何在google中创建一个AGI。这是一个真正
的
问题
,我相信是有可能解决
的
。我
的
问题
可能看起来很奇怪,因为我没有什么经验,也许我指出了一些错误。但我向你保证,这不是一派胡言。我
的
实际任务比下面的任务难得多,因此,为了简化
问题
,我简化了
问题
。我有R
浏览 0
提问于2022-06-12
得票数 3
回答已采纳
2
回答
强化
学习
算法
、
我想用
强化
学习
机器
学习
的
方法来研究和开发一些应用。我已经熟悉使用监督
学习
的
分类
问题
。谢谢!
浏览 0
提问于2021-11-15
得票数 0
回答已采纳
3
回答
为什么RL被称为“
强化
”
学习
?
、
、
我理解为什么机器
学习
是这样命名
的
,除此之外,还有监督
学习
和无监督
学习
背后
的
术语。那么,关于
强化
学习
,reinforced是什么?
浏览 63
提问于2018-05-28
得票数 4
回答已采纳
1
回答
Q
学习
中
的
探索
: Epsilon贪婪与
探索
功能
、
我正在努力了解如何确保我们
的
代理在开发它所知道
的
信息之前,对状态空间进行足够
的
探索
。我知道,我们使用贪婪
的
epsilon方法和一个衰败
的
epsilon来实现这一点。然而,我遇到了另一个概念,即使用
探索
函数来确保我们
的
代理
探索
状态空间。用Epsilon贪婪
的
Q(s
浏览 0
提问于2021-05-05
得票数 3
回答已采纳
5
回答
强化
学习
还是监督
学习
?
、
如果在
强化
学习
(RL)算法在现实世界中工作之前,需要在模拟
环境
中进行大量迭代,为什么我们不使用相同
的
模拟
环境
来生成标记数据,然后使用监督
学习
方法而不是RL?
浏览 3
提问于2018-11-14
得票数 1
1
回答
如果国家不再重复,
强化
学习
会起作用吗?
、
、
、
、
我正在开发一个信息检索模型,在这个模型中,用户输入一个查询,该模型必须检索3个最相关
的
FAQ对。我正在收集页面单击etc.What
的
隐式反馈--我不明白如何定义状态--如果我想通过
强化
学习
来实现这一点?如果我将每个查询定义为一个状态,所有的状态都会不同-- .Can --请对此有所了解!!
浏览 0
提问于2018-10-24
得票数 1
4
回答
R中
的
n-武装匪徒模拟
、
、
我正在使用Sutton &Barto
的
电子书“
强化
学习
:
学习
强化
学习
的
介绍”。我遇到了一些
问题
,试图在上模拟结果(图)。 因此,我想,我必须跟踪
探索
性
的
价值,因为更好
的
发现。
问题
是如何用贪婪
浏览 9
提问于2013-07-29
得票数 6
回答已采纳
2
回答
为什么我们在非平稳
强化
学习
中将最近
的
奖励加权得更高?
、
、
Barto和Sutton
的
《
强化
学习
导论》一书中提到了以下关于非平稳RL
问题
的
内容: “我们经常遇到
强化
学习
问题
,这些
问题
实际上是非平稳
的
。在这种情况
下
,将最近
的
奖励比长期奖励更重地加权是有意义
的
。”例如,一个
探索
者代理
的
任务是找到迷宫
的
出口,实际上可能会失败,因为它在遥远
的
过去做出了错误<e
浏览 1
提问于2016-05-08
得票数 2
2
回答
RL代理在利用过程中
学习
吗?
、
、
RL代理是在开发过程中
学习
,还是只在
探索
过程中
学习
? 是否有可能仅仅利用开采(即不允许勘探)来训练一个模型?
浏览 0
提问于2019-06-06
得票数 1
1
回答
深层Q
学习
不收敛
、
、
、
、
我正在使用Keras进行深度Q
学习
的
实验,我想教一个代理执行一个任务。我尝试了3种不同
的
模型(我没有使用卷积网络) 具有乙状结肠激活函数
的
10
浏览 4
提问于2017-04-17
得票数 2
2
回答
为了编写一个简单的人工智能程序来玩游戏,我需要什么知识?
、
、
、
、
我
的
课程之一是“机器
学习
入门”,我一直想在这门课上做一个个人项目。为了训练一个简单的人工智能程序来玩游戏,我需要获得什么知识?这是我目前在机器
学习
中所知道
的
-统计推断可能是近似正确
的
模型,包括泛化界和模型选择。基本
的
超平面算法:感知器和Winnow。核粒 促进弱
学习
者向强
浏览 0
提问于2017-01-04
得票数 9
回答已采纳
2
回答
信息提取结合
强化
学习
,可行吗?
、
、
、
我想知道是否可以使用
强化
学习
(因为它将越来越流行
的
谷歌DeepMind &AlphaGo
的
东西)来解析和提取文本信息。例如,它是否是结构化预测
的
竞争性方法,例如 命名实体识别(NER),即“城市”标记纽约
的
任务和“组织”词性标记(POS)
的
“纽约时报”,即将单词归类为行列式、名词等信息提取,即在文本中查找和标记某些目标信息,例如12/03号日期被赋予上下文含义为12月3日,是否有标签“终止日期”是用来完成这些任务
的
相关模型?也许它会学
浏览 0
提问于2016-03-12
得票数 4
回答已采纳
1
回答
连续状态和动作空间
的
强化
学习
、
、
问题
当前状态是表示物体在
环境
中
的
位置(三维)和物体
的
速度(三维)
的
矢量。在
环境
中随机初始化起始位置,以及启动速度。 动作是表示从状态t到状态t+1
的
运动
的</
浏览 0
提问于2019-01-05
得票数 5
回答已采纳
1
回答
连续状态和动作空间
的
强化
学习
、
、
、
问题
当前状态是表示物体在
环境
中
的
位置(三维)和物体
的
速度(三维)
的
矢量。在
环境
中随机初始化起始位置,以及启动速度。 动作是表示从状态t到状态t+1
的
运动
的</
浏览 1
提问于2019-01-05
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
基于分层强化学习的自动驾驶轨迹规划
DeepMind用强化学习探索大脑多巴胺对学习的作用
深度学习第10期:基于Q的强化学习(下)
性能优化:空调能耗节能的强化学习探索之路
深度强化学习在滴滴路径规划中的探索
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券