腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
强化
学习
代价
函数
、
、
、
现在我的问题是我还不明白的:我如何计算成本
函数
,使其作为反向传播的起始梯度传播?我完全理解监督
学习
,但在这里我们没有任何标签来再次得分。 我该如何开始优化网络?
浏览 25
提问于2019-03-13
得票数 0
1
回答
逆
强化
学习
的实际应用是什么?
、
逆
强化
学习
是利用专家轨迹
学习
奖励
函数
。目前最成功的方法是最大熵逆
强化
学习
。但在这一点上,你需要一个基于模型的
强化
学习
。但世界上大多数实际问题都是无模型的,很难计算出状态转移概率。那么,我们如何在现实问题中使用这种逆
强化
学习
呢?
浏览 0
提问于2018-04-02
得票数 3
回答已采纳
2
回答
强化
学习
算法
、
我想用
强化
学习
机器
学习
的方法来研究和开发一些应用。我已经熟悉使用监督
学习
的分类问题。谢谢!
浏览 0
提问于2021-11-15
得票数 0
回答已采纳
3
回答
在深度
强化
学习
中,神经网络的设计是否有经验法则?
、
、
在深入
学习
中,我们可以用损失
函数
值来评估模型的性能,并通过K倍交叉验证等方法来提高模型的性能。但是,如何设计和优化神经网络在深度
强化
学习
中的应用呢?我们可以用奖励等来评估
强化
学习
算法本身的性能,但是如何保证神经网络在
强化
学习
算法中的应用是好的还是坏的呢?
浏览 0
提问于2019-02-08
得票数 3
1
回答
将RNN的隐藏状态传递给另一个RNN
、
、
我正在使用
强化
学习
教一个人工智能,一个奥地利纸牌游戏,与不完美的信息,称为施纳普森。对于不同的游戏状态,我有不同的神经网络(使用不同的特征)来计算值/策略。
浏览 0
提问于2021-10-11
得票数 1
2
回答
为了编写一个简单的人工智能程序来玩游戏,我需要什么知识?
、
、
、
、
我的课程之一是“机器
学习
入门”,我一直想在这门课上做一个个人项目。为了训练一个简单的人工智能程序来玩游戏,我需要获得什么知识?这是我目前在机器
学习
中所知道的-统计推断可能是近似正确的模型,包括泛化界和模型选择。支持向量机(SVM)促进弱
学习
者向强
学习
者
学习
: AdaBoost回归决策树 决策树修剪与随机林
浏览 0
提问于2017-01-04
得票数 9
回答已采纳
1
回答
如何比使用`ray.tune.Trainable`进行评估更频繁地记录日志
我对使用tune库进行
强化
学习
很感兴趣,我想使用内置的tensorboard功能。但是,我用来调优超参数的指标是基于一个耗时的评估过程,应该不经常运行。或者,我是否可以从_train方法返回希望记录的值,但有时会从字典中省略计算
代价
高昂的指标?
浏览 9
提问于2019-08-14
得票数 0
回答已采纳
3
回答
为什么RL被称为“
强化
”
学习
?
、
、
我理解为什么机器
学习
是这样命名的,除此之外,还有监督
学习
和无监督
学习
背后的术语。那么,关于
强化
学习
,reinforced是什么?
浏览 63
提问于2018-05-28
得票数 4
回答已采纳
2
回答
如何在python中调用Javascript
函数
?
、
、
我正在尝试用电子学和深度
强化
学习
来做一个蛇的游戏。我用python和Javascript做的
强化
学习
的东西。现在我如何在python中调用这样的
函数
呢?
浏览 3
提问于2020-03-20
得票数 0
1
回答
当可能发生多个操作时,策略梯度是多少?
、
我试图编程一个
强化
学习
算法使用策略梯度,灵感来自。卡帕的例子只有上下两个动作,所以一个输出神经元就足够了(高activation=UP,低activation=DOWN)。我想把它扩展到多个动作,所以我相信我需要输出层上的softmax激活
函数
。但是,我不确定输出层的梯度应该是多少。如果我在监督
学习
环境中使用具有softmax激活的交叉熵损失
函数
,神经元的梯度就是:其中target[i] = 1用于所需的操作,0用于所有其他操作。为了用于
强化</e
浏览 6
提问于2017-05-10
得票数 3
回答已采纳
1
回答
基于监督数据集的
强化
学习
、
、
、
我试着做一个大学项目,我的问题是,我的教授让我在一个基本的监督数据集上做一个像RL这样的高级ML模型,我试图让他相信RL也是不合适的。是否有方法对基于时间的数据集执行RL?或者你建议什么型号(高级型号)?
浏览 2
提问于2022-08-08
得票数 0
1
回答
监督
学习
与离线(批)
强化
学习
、
大多数材料(例如大卫·西尔弗的在线课程)我都能找到关于监督
学习
和
强化
学习
之间关系的讨论。然而,它实际上是监督
学习
和在线
强化
学习
的比较,在这种情况下,agent在环境中运行(或模拟交互),以获得对底层动力学的有限知识的反馈。我对离线(批量)
强化
学习
更感兴趣,在这里,数据集(收集的
学习
经验)是先验的。与监督
学习
相比,有什么不同?他们可能有哪些相似之处?
浏览 4
提问于2021-08-14
得票数 0
回答已采纳
1
回答
为什么深层
强化
学习
不能学会如何玩小行星?
、
、
深入的Q-
学习
,A3C,政策进化的遗传算法,他们都没有
学习
小行星,或至少表现比人类差得多。根据RL的说法,从最艰难的Atari游戏来看,大部分的焦点都集中在蒙特祖马的复仇上,这显然受到了很少的奖励。以下是一些报告小行星上的坏结果的论文(有些文章互相引用):深度
强化
学习
的大规模并行
学习
方法基于深度
强化
学习
的网络结构决斗 优先
浏览 0
提问于2018-02-16
得票数 3
回答已采纳
1
回答
如何在没有培训数据的情况下生成评等?
、
、
、
我想使用
强化
学习
来
学习
与用户反馈的评级,但不确定如何做到这一点。有人能为这个问题提出一个相关的技术或算法吗?
浏览 0
提问于2015-06-12
得票数 0
1
回答
基于模型和模型的
强化
学习
我正在
学习
强化
学习
,我发现了令人困惑的信息。我知道有两种不同类型的
强化
学习
,基于模型和模型自由。在第二个图像中,可以看到TD
学习
,所以我不明白Td
学习
是另一种
强化
学习
还是基于模型的。 📷
浏览 0
提问于2022-02-21
得票数 0
回答已采纳
7
回答
如何实现深度
强化
学习
(DQN)?
、
、
DQN(Deep Q-Learning)可谓是深度
强化
学习
(Deep Reinforcement Learning,DRL)的开山之作,是将深度
学习
与
强化
学习
结合起来从而实现从感知(Perception)到动作( Action )的端对端(End-to-end)
学习
的一种全新的算法 ,该如何实现深度
强化
学习
(DQN)呢?
浏览 3423
提问于2018-10-10
2
回答
神经网络中的Q-
学习
而不是
学习
、
、
我已经在这个神经网络中实现了Q-
学习
,然而,它并没有导致代理赢得更多的游戏时间(甚至在100万次游戏之后)。我将尝试用文字解释我做了什么,希望有人能发现一个错误,这可能导致这个问题。Q值是使用乙状结肠或RELU激活
函数
来确定的(我尝试了两者)。 我的qValues似乎要么很低(按0.0001的顺序),要么非常接近1
浏览 2
提问于2016-10-19
得票数 2
2
回答
为什么要将马尔可夫性质引入
强化
学习
?
、
、
作为深度
强化
学习
的初学者,我很困惑为什么我们应该在
强化
学习
中使用马尔可夫过程,以及它给
强化
学习
带来了什么好处。另外,马尔可夫过程要求在“已知”条件下,“现在”与“未来”无关。为什么一些深度
强化
学习
算法可以使用RNN和LSTM?这是否违反了马尔可夫过程的假设?
浏览 4
提问于2020-12-23
得票数 0
1
回答
寻找用于序列生成的RL解决方案
我正在为下列问题寻找适当的
强化
学习
解决方案:当F(s') =真时,奖励+= 1每次序列增长一次,我就试着惩罚奖励我认为这是一个
学习
问题,并设想可以通过
强化
学习</em
浏览 0
提问于2019-04-14
得票数 2
回答已采纳
1
回答
强化
学习
-从原始像素
学习
、
为了进一步了解这些知识,我想探讨一下代理如何从原始像素中
学习
,并尝试使用H2O实现一个示例。我想使用Java。 但是,我仍然需要弄清楚如何使用Java从游戏中流出图像像素,以帮助h2o RL代理
学习
。示例主要使用R和Python。
浏览 7
提问于2017-05-08
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
机器学习系列 2:代价函数
机器学习代价函数中的正则化
第三篇:机器学习之代价函数和梯度下降
方法研究:强化学习中的函数逼近思想
每天十分钟机器学习之五:代价函数的定义
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券