腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4565)
视频
沙龙
1
回答
为什么
我们
需
要与
均匀分布
进行
比较
来
选择
动作
,
而
策略
函数
在
Deep
RL
中
做
到了
这一点
、
、
、
在
Karpathy编写的以下代码
中
,
为什么
我们
有这一行(
为什么
我们
需
要与
均匀分布
进行
比较
来
选择
一个操作,
而
策略
函数
是这样
做
的) # forward the policy network and sample
而
不是仅仅 # forward the policy network and sa
浏览 21
提问于2020-07-19
得票数 0
回答已采纳
2
回答
为什么
策略
梯度定理
在
强化学习中使用Q
函数
?
、
策略
梯度算法的引入表明,
策略
算法是更好的算法,因为它直接优化
策略
,
而
不需要先计算Q。那么
为什么
他们
在
等式中使用Q呢?他们如何在不先计算Q
函数
的情况下直接计算整个东西?
浏览 5
提问于2019-09-20
得票数 1
1
回答
为什么
DQN的勘探不会导致不稳定?
、
、
、
为什么
DQN
中
的行动探索不会导致不稳定?我的问题是,这种做法如何不导致不稳定?甚至epsilon的最终值(随机
动作
的概率)也是非零的!如果
我们
设置了最终的epsilon=0.01,
我们
会随机地
在
100次中
选择
一个
动作
,这意味着
我们
不会在不同的运行
中
得到相同的答案,而且
我们
的答案可能不稳定。
为什
浏览 0
提问于2018-09-10
得票数 3
4
回答
TD学习vs Q学习
、
、
、
在
完美的信息环境
中
,
我们
能够知道
动作
后的状态,就像下棋一样,有什么理由使用Q学习
而
不是TD (时差)学习?据我所知,TD学习将尝试学习V(状态)值,但Q学习将学习Q(状态
动作
值)值,这意味着Q学习学习较慢(因为状态
动作
组合比状态更多),对吗?
浏览 8
提问于2016-02-26
得票数 4
1
回答
建议一个强化学习代理,以学习如何有效地切换位向量。
、
、
它有10个可能的
动作
--每个
动作
将相应的位转换为1。切换一个0比1的位会得到1的奖励,但是尝试切换一个已经是1的位会得到-1的奖励并结束游戏。代理
在
每一步之后看到整个位向量。我遗漏了什么?这真的是一项艰巨的任务吗?
浏览 0
提问于2017-09-18
得票数 0
5
回答
强化学习还是监督学习?
、
如果在强化学习(
RL
)算法
在
现实世界
中
工作之前,需要在模拟环境中
进行
大量迭代,
为什么
我们
不使用相同的模拟环境来生成标记数据,然后使用监督学习方法
而
不是
RL
?
浏览 3
提问于2018-11-14
得票数 1
2
回答
最佳强化学习优化器
、
我
选择
强化学习的原因之一是为了
在
现场学习的能力,例如,调整以适应机械变化,如磨损的轮胎或车轮稍微偏离对齐。我的强化学习器
在
启动时恢复它最后保存的权重和重放缓冲区,所以它不需要每次我打开它时都重新训练。然而,我关心的一个问题是优化器。自从ADAM以来,优化器已经走过了很长的路,但我读到的所有东西和我看到的所有
RL
代码样本似乎仍然使用具有固定学习率的ADAM。我想利用一些优化器的进步,例如one cycle AdamW。我的一个想法是,也许可以采用一种单周期的方法
进行
初始训练,如果错误的变化表明某些东西发生了
浏览 3
提问于2020-01-21
得票数 0
7
回答
AlphaGo政策网络与价值网络的差异
、
我读了一篇关于谷歌AlphaGo的高级摘要,我偶然发现了“
策略
网络”和“价值网络”这两个术语。
在
高层次上,我理解
策略
网络被用来建议移动,价值网络被用来,“缩小搜索树的深度( 和估计 )--每个位置的赢家,
而
不是一直搜索到游戏结束。” 这两个网络在我看来是多余的。如果
策略
网络没有使用值网络
来
修剪
策略
,那么它在做什么呢?很明显,价值网络是一个深度学习的神经网络;政策网络只是一个理论抽象,
而
不是一个实际的神经网络吗?价值网络的目标变量似乎是输赢。是否有<em
浏览 0
提问于2016-03-28
得票数 28
回答已采纳
2
回答
深Q网络
中
的Q-学习方程
、
、
、
、
我的问题是: 事先谢谢,如果有些事
浏览 1
提问于2018-05-29
得票数 2
回答已采纳
1
回答
寻找用于序列生成的
RL
解决方案
我正在为下列问题寻找适当的强化学习解决方案:当F(s') =真时,奖励+= 1每次序列增长一次,我就试着惩罚奖励我认为这是一个学习问题,并设想可以通过强化学习技术(如DQN )
来
解决这个问题。
浏览 0
提问于2019-04-14
得票数 2
回答已采纳
1
回答
这是一种Q学习算法还是一种蛮力?
、
、
、
说了上千个游戏之后,它只对10%的
动作
进行
了探索。所有其他
动作
都是基于对以前奖励的利用。 奖励:如果比赛结果是胜利,那么奖励10分。如果比赛结果是平局,0分,否则-5分。
这一点
很重要,这样它就不会错过立即获胜的机会--如果对手错过了这样的一步,对手很可能会( a)移动到那里,以避免AI下次获胜;( b)认为该算法很愚蠢,因为它错过了一场“明显”的胜利。然而,根据https://www.cse.unsw.edu.au/~cs9417ml/
RL
1/tdlear
浏览 0
提问于2018-03-10
得票数 10
回答已采纳
1
回答
建立一个深层次的神经网络,产生以多元标准正态分布分布的输出
、
、
、
、
实际上,我有一些输入X,根据这个问题,可以假设它只是一个来自
均匀分布
的值的矩阵。我把输入输入到网络
中
,网络的体系结构目前可以改变。我认为要做到
这一点
,需要做的是
选择
正确的损失
函数
。为了做到
这一点
,我想
到了
两种方法:
浏览 2
提问于2020-11-08
得票数 0
4
回答
>0和>=1之间有什么区别?
有什么理由让一些教授和程序员写
而
不是 if ( x > 0 )
浏览 3
提问于2014-03-26
得票数 9
回答已采纳
2
回答
用长插曲优化深层Q网
、
、
、
因此,
我们
正在逐步学习一个矩阵( 100 * 10 ),
在
每一集
中
,
我们
需要对某些操作执行100*10次迭代。基本上,
我们
从1000名候选人中
选择
一个候选人,将此候选人放入矩阵
中
,并通过将整个矩阵作为输入
来
计算奖励
函数
:中心障碍是,
在
每一步的奖励
函数
计算是昂贵的,大约2分钟,每次
我们
更新一个条目的矩阵该
函数
F以矩阵作为输入,
进行
了非常
浏览 0
提问于2019-05-17
得票数 12
2
回答
为什么
A=Q
而
不是A=V?
、
、
在
大卫-希尔弗的
RL
课程-讲座7:政策梯度法
中
,大卫解释了什么是优势
函数
,以及Q(s,a)和V(s)之间的区别。状态值
函数
V^\pi(s)是
在
状态s
中
开始并随后跟随\pi时的预期返回。类似地,状态操作值
函数
Q^\pi(s, a)是
在
状态s
中
启动、采取操作a并随后跟踪
策略
\pi时的预期返回。那么,
为什么
将advantage
函数
定义为A = V - Q
而</e
浏览 0
提问于2018-09-01
得票数 9
回答已采纳
7
回答
四个无符号整数的散列
函数
(C++)
、
、
我现在正在写一个程序,它产生四个无符号的32位整数作为某个
函数
的输出。我想散列这四个整数,这样我就可以将这个
函数
的输出与未来的输出
进行
比较
。 不过,我在编写一个像样的散列
函数
时遇
到了
麻烦。当我最初编写这段代码时,我抛出了四个整数
中
每个整数的简单加法,我知道这是不够的。我已经尝试了其他几种技术,比如移位和加法,但都没有用。我得
到了
一个哈希,但它的质量很差,而且这个
函数
会产生大量的冲突。有问题的
函数
会生成数十亿的散列,所
浏览 0
提问于2009-11-30
得票数 10
回答已采纳
2
回答
操纵噪声,以正确的格式获取数据,并使用PPO将其应用于任务
中
。
、
、
、
、
策略
网(返回
动作
的网络)返回我的排序字符串(类似于:"内(list1.index(min(List1)用于I
在
范围内(len(List1)"),我通过"eval“执行它,获得执行的时间,并使用这个时间
来
形成奖励但是这个任务更简单,
在
我的实际任务
中
,我有一些变量和
函数
,模型在生成排序字符串时可以使用它们。
在
我们
的例子
中
,它可以是:"list_1",list_1 这就
浏览 0
提问于2022-06-12
得票数 3
回答已采纳
3
回答
Prolog -这背后的逻辑是什么
reverse(L,
RL
):- reverse(L, [],
RL
).reverse([H|T], S,
RL
):- reverse(T, [H|S],
RL
concat_reverse(L1,L2,L):-concat(L1,L2,LN),reverse(LN,L)下面是一个例子 5 ?
浏览 0
提问于2011-05-27
得票数 3
1
回答
为什么
我们
在
Flux/Redux体系结构
中
解耦
动作
和减速器?
、
、
我已经使用了很长一段时间的Flux和Redux,我确实喜欢它们,我看
到了
它们的好处,但是有一个问题一直浮现在我的脑海中: 将其看作是React组件的状态接口(setState,this.state),
而
不是呈现部分。因此
浏览 1
提问于2017-04-26
得票数 5
1
回答
深度强化学习的大
动作
空间
、
我知道
在
正常的深度强化学习(DRL)场景
中
,
我们
学习了一个深层神经网络
来
将当前状态映射到Q值。Q值的数目(神经网络输出的#)与可能的
动作
数相同,因此
我们
可以根据相关的Q值
选择
动作
。然而,
在
本文"基于组合
动作
空间的深度强化学习预测流行Reddit线程“
中
,作者使用状态和
动作
作为输入。网络只输出一个Q值(见下图)。s_t是time的状态,t和a_t^i是time t的i^{\
浏览 0
提问于2019-04-16
得票数 6
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
实战深度强化学习DQN-理论和实践
深度强化学习的弱点和局限
深度强化学习的弱点和局限(上)
基于深度强化学习和卷积神经网络的遥感飞机目标检测
从头开始强化学习
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券