腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(240)
视频
沙龙
1
回答
如何
确
定在
DQN
模型
中
使用
正
奖励
还是
负
奖励
?
、
、
、
我刚接触深度强化学习,
DQN
模型
。我
使用
Open AI gym分别重现了一些名为CartPole-v0和MountainCar-v0的实验。这两个
模型
都能成功运行,并获得预期的测试集
奖励
。但两种
模型
的每个时间步长的
奖励
是不同的。 对于CartPole-v0,
奖励
是+1和0。每一集都有300个时间步长,代理试图尽可能多地获得总
奖励
。所有操作的
奖励
始终为-1,因此代理试图最终获得比平时更少的
负
奖
浏览 98
提问于2020-07-21
得票数 0
2
回答
DQN
的报酬函数设计原则是什么?
、
、
我正在设计一个
DQN
模型
的
奖励
函数,这是深层强化学习中最棘手的部分。我参考了几个案例,并注意到通常
奖励
会在- 1,1。考虑到如果
负
性
奖励
被触发的次数较少,与
正
奖赏相比“稀疏”,则肯定
奖励
可能低于1。我想知道为什么我总是把
奖励
设
定在
这个范围内(有时可以是0,1,其他时候可以是-1,0或简单-1)?范围背后的理论或原理是什么? 我通过了,它提到将500设置为
正
奖励
,-1设置为
负
浏览 6
提问于2020-08-03
得票数 0
1
回答
强化学习:处理不可量化的反馈系统
、
我该
如何
解决这个问题?仅供参考,我是ML的新手,它没有必要是强化学习。我也尝试过神经网络方法,但即使这样也有类似的问题。
浏览 1
提问于2018-05-12
得票数 1
1
回答
将有监督的神经网络转化为强化学习?
、
我有一个功能性的LSTM
模型
,它具有可接受的性能。现在我
如何
将这个受监督的
模型
转换为一个强化学习
模型
,以提高性能?关于
如何
将有监督的
模型
转换为强化学习
模型
,有什么例子吗?我有一个很大的数据集,我尝试了一个监督学习
模型
,它可以很好地实时地完成预测。这是否意味着我必须再次
使用
旧的数据
浏览 0
提问于2019-10-21
得票数 2
1
回答
如何
在Keras
DQN
中
实现梯度上升
、
、
、
、
我已经建立了一个强化学习
DQN
,将可变长度的序列作为输入,并计算出行动的积极和消极
奖励
。我在Keras
中
的
DQN
模型
存在一些问题,这意味着尽管该
模型
运行,但在epsilon的单个和多个周期中,平均回报会随着时间的推移而减少。即使经过长时间的训练,这一点也不会改变。 ? ? 我的想法是,这是由于在Keras中
使用
MeanSquareError作为损失函数(最小化误差)。所以我正在尝试实现梯度上升(以最大化回报)。
如何
在Keras
中</e
浏览 47
提问于2020-11-23
得票数 0
回答已采纳
1
回答
大众语境强盗:历史数据和在线学习
、
我在没有
使用
任何
模型
的情况下收集了一些历史数据:上下文(用户和网络会话功能),动作id (我的5个优惠之一),
奖励
(如果用户点击了这个优惠,1,0-没有点击)。因此,我有N个用户和5个已知
奖励
的优惠,在我的历史数据
中
总共有5*N行。这意味着用户1已经看到了3个优惠(1,2,3),1个优惠的成本等于1(没有点击),用户在优惠2和3上点击(成本为
负
->
奖励
为
正
)。概率等于1,因为所有的报价都已显示,并且我们知道
奖励
。我想
使用
浏览 25
提问于2020-05-20
得票数 0
3
回答
QLearning
中
的负面
奖励
、
让我们假设,无论我们的代理做了什么会让他碰壁的动作,我们都会给他-1的
负
奖励
,并让他回到以前的状态。如果他在房间中央发现一个木偶,他将赢得+10
奖励
。现在,在与墙的关系
中
,对我来说似乎不是这样的。Q([0,1], LEFT) = 0 + gamma * (max { 0, 0, 0, -1 } ) = 0 + 0 = 0 这就是说,碰壁后不会传播到附近的状态,这与
浏览 3
提问于2009-12-04
得票数 5
回答已采纳
1
回答
多智能体(不是深层)强化学习?问题建模
、
、
、
如果时隙t
中
的数据包成功或失败(碰撞),则每个用户n从环境
中
得到观察。如果超过一个用户访问该频道,他们将受到惩罚。分组按照泊松过程到达每个用户,每个时隙平均$\lambda$分组。每个用户都有以前10个时隙的历史记录,它
使用
这些时隙作为
DQN
的输入,以输出采取行动的概率,A_n:保持沉默或发送。历史是(
浏览 6
提问于2020-11-21
得票数 0
1
回答
深Q-网络(
DQN
)学习游戏2048没有改进
、
、
、
我试图建立一个深Q网络(
DQN
)代理,可以学习玩游戏。我是定位在其他程序和文章,是基于游戏蛇和它工作得很好()。作为输入状态,我只
使用
带有tiles的网格作为numpy数组,并且作为
奖励
,我
使用
(newScore-oldScore-1)来惩罚根本不给任何点的移动。我知道这可能不是最理想的,因为我们可能会
奖励
尽可能长时间的活着,但是第一步应该是可以的,对吗?尽管如此,我并没有取得任何好的结果。 我试着调整
模型
布局,神经元和层数,优化器,伽马,学习率,
奖励
等等。predic
浏览 0
提问于2019-06-13
得票数 1
2
回答
Laravel5.4:调用未定义方法Illuminate/Database/Query/Builder::getRelated()
、
claim_rewards表由以下内容组成因此,如果用户有3项
奖励
,而用户要求一项
奖励
,则只应在字段
中
显示剩余的两项
奖励
,因此我认为应该
使用
:但我
还是
会犯同样的错误。对
如何
处理这件事有什么想法吗?谢谢。编辑:id, level_required, item_name 这就是为什么我在LevelRewards
模型<
浏览 0
提问于2019-04-17
得票数 1
回答已采纳
0
回答
具有特定自定义成本函数的Tensorflow NN
我正在尝试在tensorflow
中
创建一个不属于回归类别分类的神经网络。它可能更接近强化学习。 我已经制作了一个带有几个ReLU隐藏层的网络,它以3个元素的softmax输出层结束。每个样本的目标向量都是做出某种选择的
奖励
(惩罚可以是
负
的,中性可以是0)(其中有3个)。这个想法是最大化所有样本的总和
奖励
。给定一个样本输入,该样本输入映射到具有目标
模型
e,f的
模型
输出M=a,b,c;该特定样本的损失将是M*Y',或者简称为-tf.matmul( Y=d,Y,transpose_b
浏览 2
提问于2016-07-06
得票数 1
5
回答
在
奖励
总是-1的环境
中
,
DQN
是
如何
工作的?
、
、
、
、
考虑到OpenAI Gym环境总是返回-1.0作为
奖励
(即使当目标实现),我不明白
DQN
如何
与经验-重播收敛,但我知道,因为我有证明它。通过工作,我的意思是,当我训练代理人时,代理人很快(在300-500集内)就学会了
如何
解决登山车问题。下面是我受过训练的特工的一个例子。 我的理解是,最终需要找到一个“稀疏的
奖励
”。这没有回答我的问题,因为在
DQN
和经验重播
中
,那些返回(-1000,-200)永远不会出现在体验重放内存
中
。然而,代理人对待两者是一
浏览 0
提问于2019-01-25
得票数 3
1
回答
如何
实现
使用
图像作为观察的2D OpenAI-Gym环境?
、
我需要用一个机器人手臂和一个目标点的基本
模型
来创建一个2D环境。我希望手臂通过一系列离散的动作(例如,向右、向左、向上和向下)到达目标,并且我需要观察空间是屏幕的RGB图像,然后将其用作
DQN
的输入。我的问题是,我不明白
如何
使用
图像观察来移动机器人,并获得其手臂和目标的位置(例如,根据它们的距离创建
奖励
函数)。看起来我唯一可以从健身房环境
中
获得灵感的是Atari的环境,但我找不到单个游戏的具体代码,可能是因为它们嵌入在ROM
中
。那么,如果我想在健身房中学习Atari环境
浏览 28
提问于2020-08-28
得票数 1
1
回答
为什么我的Tic脚趾深度Q-学习实现不学会阻止对手的移动?
、
、
、
零
奖励
不终止移动和平局。胜利的
奖励
是1。根据我对minimax算法的理解,我正在从
奖励
中
减去Q值。 通过
使用
合法动作列表
中
的操作来获得当前状态的q值,可以获得最佳动作,而q值最高的动作被认为是最佳动作。我正在
使用
一个在线Q-网络来提供下一个最优移动,在每个样本
中
更新,以及一个离线Q-网络,它提供了获得目标Q值的Q值,根据DDQN implementation.Along和epsilon衰变探测和开发,
DQN
未能阻止移动,只对完成一行感
浏览 6
提问于2020-05-07
得票数 1
4
回答
数据库设计问题:
、
、
当志愿者的小时数接近某一特定数量时,就会通知志愿者主管给予他们
奖励
。若要有一个
奖励
表,将每一行的预置金额和
奖励
联系起来,则如下所示;第二
浏览 7
提问于2010-02-17
得票数 2
回答已采纳
1
回答
Rails 3.2 -基于其他
模型
标准在
模型
中
验证
我有一个
奖励
模型
-有两种形式来创建
奖励
。一个用于提名员工,另一个用于非员工。EMPLOYEE表单拉取活动员工列表以填充被提名人选择框。为了对应用程序进行虚拟验证,我想运行一个验证,禁止员工
使用
非员工表单(因为他们将不可避免地尝试这样做!)。每个表单上都有一个隐藏字段,用于设置表单是Employee
还是
Non:<%= f.hidden_field :employee, :value => true/false %> 因此,在非Employee表单上,如果用户键入Employee表
浏览 7
提问于2013-05-21
得票数 0
回答已采纳
1
回答
政策梯度
中
的时间范围T(演员-批评家)
、
、
、
、
=1}^N \sum_{t=1}^T \nabla_\theta \log{\pi_\theta(a_{i,t}) (Q(s_{i,t},a_{i,t}) - V(s_{i,t} )} $$给出了期望
奖励
函数的梯度,q值函数定义为$$Q(s_t,a_t) = \sum_{t'=t}^T \mathbb{E}{\pi_\theta}$$乍一看,这是有意义的,因为我将选择的操作$a_{i,t}$的值与时间步骤$t$
中
的平均值进行比较我对此表示怀疑,但我不太明白$T$的时间范围是
如何
适应的。 或者$T$不是固定的(也许它被定义为轨迹以终
浏览 0
提问于2018-08-28
得票数 4
1
回答
如何
设计作为某一州唯一法律行为的诉讼报酬
根据Sutton's 的一些建议,我
使用
了一种带平均报酬的值函数近似方法(微分回报而不是折价回报)。对于某些状态(由某些特性表示),只有一个操作是合法的。我不知道
如何
为这样的行动设计
奖励
。在前一步只分配
奖励
可以吗?
还是
分配平均
奖励
(取目前收集到的所有
奖励
的平均值)?有谁能告诉我唯一的法律诉讼的
奖励
是什么?谢谢!
浏览 0
提问于2018-10-29
得票数 1
回答已采纳
1
回答
事后回放:什么
奖励
w.r.t。采样目标意味着
参考关于事后体验回放的论文 end for其中: g :当前目标 R :回放缓冲区所有其他带有破折号的符号都表示除了当前事件
中
的实际目标之外这意味着(据我理解),对于抽样目标(g'),
奖励
现在是在给定抽样目标的状态下所采取的行动的函数。如果
奖励
仍然是旧函数(对于与最终目标不同的所
浏览 0
提问于2018-08-13
得票数 2
回答已采纳
2
回答
操纵噪声,以正确的格式获取数据,并
使用
PPO将其应用于任务
中
。
、
、
、
、
但是这个任务更简单,在我的实际任务
中
,我有一些变量和函数,
模型
在生成排序字符串时可以
使用
它们。正如您所记得的,我有一些变量必须在字符串排序
中
。因此,有一个问题:“
如何
使策略网将这些变量添加到排序字符串
中
?”我相信
奖励
形成将有助于解决这一问题。
如何
形成
奖励
: 如果策略网返回有效的排序字符串(这是有效的python代码,并且包含我所需的最小变量集(至少"list1"),以便在没有错误的情况下传递它),但是它比以前最好
浏览 0
提问于2022-06-12
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
推荐系统中的前沿技术之强化学习
深度强化学习-Policy Gradient基本实现
DQN、A3C、DDPG、IQN…你都掌握了吗?一文总结强化学习必备经典模型(一)
“OpenAI Five”战胜的秘诀
打造你的专属AI游戏机器人:太空侵略者
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券