腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
当可能发生多个操作时,策略梯度是多少?
、
我试图编程一个
强化
学习
算法使用策略梯度,灵感来自。卡帕的例子只有上下两个动作,所以一个输出神经
元
就足够了(高activation=UP,低activation=DOWN)。如果我在监督
学习
环境中使用具有softmax激活的交叉熵损失函数,神经
元
的梯度就是:其中target[i] = 1用于所需的操作,0用于所有其他操作。为了用于
强化
学习
,我会把g[i]乘以折扣奖励,然后再进行反向传播。 然而,
强化
<em
浏览 6
提问于2017-05-10
得票数 3
回答已采纳
1
回答
电极.层数和神经
元
数.模型参数
、
、
有谁能建议我如何在DDQN算法中求出最优的图层数、神经
元
数、深度
学习
模型参数。当输入和输出神经
元
分别为4和2时,在选择隐层数和隐层数时,是否有科学原因或数学依据。我按照这个链接建立了
强化
学习
算法https://pylessons.com/CartPole-reinforcement-learning/。
浏览 0
提问于2021-06-21
得票数 1
1
回答
是否有使用
强化
学习
进行文本分类的例子?
、
、
、
想象一个像情感分析这样的二
元
分类问题。既然我们有标签,我们就不能利用实际预测之间的差距作为对RL的奖励吗? 我想尝试对分类问题进行
强化
学习
浏览 1
提问于2017-06-20
得票数 8
1
回答
将RNN的隐藏状态传递给另一个RNN
、
、
我正在使用
强化
学习
教一个人工智能,一个奥地利纸牌游戏,与不完美的信息,称为施纳普森。对于不同的游戏状态,我有不同的神经网络(使用不同的特征)来计算值/策略。
浏览 0
提问于2021-10-11
得票数 1
2
回答
强化
学习
算法
、
我想用
强化
学习
机器
学习
的方法来研究和开发一些应用。我已经熟悉使用监督
学习
的分类问题。谢谢!
浏览 0
提问于2021-11-15
得票数 0
回答已采纳
1
回答
为RL选择若干神经
元
如果我想用DQN训练我的
强化
学习
代理,我如何选择神经
元
的数量? 在监督
学习
中,选择太少或过多会导致电位过低(缺少神经
元
),或者由于过度拟合(例如,神经
元
过多)而导致泛化差。因此,选择神经
元
甚至是RL的一件事,还是我们可以给它尽可能多的神经
元
和层,让它
学习
生物肢体的正确运动?
浏览 0
提问于2018-06-10
得票数 4
回答已采纳
1
回答
逆
强化
学习
的实际应用是什么?
、
逆
强化
学习
是利用专家轨迹
学习
奖励函数。目前最成功的方法是最大熵逆
强化
学习
。但在这一点上,你需要一个基于模型的
强化
学习
。但世界上大多数实际问题都是无模型的,很难计算出状态转移概率。那么,我们如何在现实问题中使用这种逆
强化
学习
呢?
浏览 0
提问于2018-04-02
得票数 3
回答已采纳
1
回答
为什么深层
强化
学习
不能学会如何玩小行星?
、
、
深入的Q-
学习
,A3C,政策进化的遗传算法,他们都没有
学习
小行星,或至少表现比人类差得多。根据RL的说法,从最艰难的Atari游戏来看,大部分的焦点都集中在蒙特祖马的复仇上,这显然受到了很少的奖励。以下是一些报告小行星上的坏结果的论文(有些文章互相引用):深度
强化
学习
的大规模并行
学习
方法基于深度
强化
学习
的网络结构决斗 优先
浏览 0
提问于2018-02-16
得票数 3
回答已采纳
2
回答
为了编写一个简单的人工智能程序来玩游戏,我需要什么知识?
、
、
、
、
我的课程之一是“机器
学习
入门”,我一直想在这门课上做一个个人项目。为了训练一个简单的人工智能程序来玩游戏,我需要获得什么知识?这是我目前在机器
学习
中所知道的-统计推断可能是近似正确的模型,包括泛化界和模型选择。支持向量机(SVM)促进弱
学习
者向强
学习
者
学习
: AdaBoost回归决策树 决策树修剪与随机林
浏览 0
提问于2017-01-04
得票数 9
回答已采纳
1
回答
如何在没有培训数据的情况下生成评等?
、
、
、
我想使用
强化
学习
来
学习
与用户反馈的评级,但不确定如何做到这一点。有人能为这个问题提出一个相关的技术或算法吗?
浏览 0
提问于2015-06-12
得票数 0
7
回答
如何实现深度
强化
学习
(DQN)?
、
、
DQN(Deep Q-Learning)可谓是深度
强化
学习
(Deep Reinforcement Learning,DRL)的开山之作,是将深度
学习
与
强化
学习
结合起来从而实现从感知(Perception)到动作( Action )的端对端(End-to-end)
学习
的一种全新的算法 ,该如何实现深度
强化
学习
(DQN)呢?
浏览 3402
提问于2018-10-10
1
回答
基于模型和模型的
强化
学习
我正在
学习
强化
学习
,我发现了令人困惑的信息。我知道有两种不同类型的
强化
学习
,基于模型和模型自由。在第二个图像中,可以看到TD
学习
,所以我不明白Td
学习
是另一种
强化
学习
还是基于模型的。 📷
浏览 0
提问于2022-02-21
得票数 0
回答已采纳
2
回答
为什么要将马尔可夫性质引入
强化
学习
?
、
、
作为深度
强化
学习
的初学者,我很困惑为什么我们应该在
强化
学习
中使用马尔可夫过程,以及它给
强化
学习
带来了什么好处。另外,马尔可夫过程要求在“已知”条件下,“现在”与“未来”无关。为什么一些深度
强化
学习
算法可以使用RNN和LSTM?这是否违反了马尔可夫过程的假设?
浏览 4
提问于2020-12-23
得票数 0
3
回答
为什么RL被称为“
强化
”
学习
?
、
、
我理解为什么机器
学习
是这样命名的,除此之外,还有监督
学习
和无监督
学习
背后的术语。那么,关于
强化
学习
,reinforced是什么?
浏览 63
提问于2018-05-28
得票数 4
回答已采纳
1
回答
强化
学习
-从原始像素
学习
、
为了进一步了解这些知识,我想探讨一下代理如何从原始像素中
学习
,并尝试使用H2O实现一个示例。我想使用Java。 但是,我仍然需要弄清楚如何使用Java从游戏中流出图像像素,以帮助h2o RL代理
学习
。示例主要使用R和Python。
浏览 7
提问于2017-05-08
得票数 0
回答已采纳
1
回答
什么是后悔界限?
、
我唯一能找到的解释是在论文博士中:“后悔界限是在线
学习
算法分析的共同线索。后悔界限衡量在线算法相对于竞争预测机制的性能,称为竞争假设。”
浏览 0
提问于2019-10-23
得票数 2
1
回答
随机森林算法曾用于
强化
学习
应用吗?
、
我见过一个描述“
强化
学习
树”的研究论文,作者说它比随机森林有更好的收敛性。 然而,我找不到任何与利用随机森林作为
强化
学习
的表格有关的东西。是否曾进行过使用随机森林
强化
学习
的测试?
浏览 0
提问于2017-08-14
得票数 4
回答已采纳
2
回答
Tic-Tac-Toe中的Tensorflow
**TLDR的底部我已经搜索了几天,而我只是不知道什么谷歌,因为我是非常新的机器
学习
。经过研究,我认为tensorflow是一个很好的起点(我愿意接受其他建议)。当我寻找tensorflow的例子时,它们都需要一个大型的数据存储库才能输入程序,但我更感兴趣的是创建一个在玩游戏时
学习
的AI,比如Tic Tac Toe。我很难搞清楚该怎么做。TLDR:有什么好的、简单的机器
学习
程序(最好是tensorflow)可以帮助我制作一个Tic-Tac-Toe AI。
浏览 1
提问于2019-03-19
得票数 0
回答已采纳
1
回答
如何用
强化
学习
算法建立实时控制器
、
我正在尝试使用
强化
学习
来控制一个实际的机器人操纵器。对于
强化
学习
,我使用的是Google tensorflow。C++中有没有使用Tensorflow
强化
学习
算法的方法?或者,有没有其他方法可以在C++实时控制器上实现
强化
学习
算法?由衷地, 史蒂夫
浏览 0
提问于2019-04-01
得票数 0
1
回答
状态损失函数与在线回归
、
、
在tensorflow + keras中工作,我试图定义一个自定义的丢失函数。注:我更感兴趣的是损失的价值,而不是预测的实际价值(这将用于异常检测)。在t时,我收到一个输入,这是当前的观察(y_t),我有过去的x时间步骤的历史。我希望将y_t值与y_t的预测值在t-1,.t-n中的每个值进行比较。我遇到的困难是如何在批间保留这些预测数
浏览 0
提问于2019-05-29
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大脑是如何学习的?元强化学习系统或揭秘!
元强化学习迎来一盆冷水:不比元Q学习好多少
机器人强化学习,0元免费学
元学习热度不再!ICLR 2022投稿趋势:强化学习榜首,深度学习第二
《机器学习》笔记-强化学习
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券