腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
信息提取结合
强化
学习
,可行吗?
、
、
、
我想知道是否可以使用
强化
学习
(因为它将越来越流行的谷歌DeepMind &AlphaGo的东西)来解析和提取文本信息。也许它会学到“单词”中的相邻字母都有相同的标签,等等,它能用这种方法来
学习
长期的依赖关系吗? 我对任何与这一主题有关的想法或参考感兴趣。
浏览 0
提问于2016-03-12
得票数 4
回答已采纳
2
回答
强化
学习
算法
、
我想用
强化
学习
机器
学习
的方法来研究和开发一些应用。我已经熟悉使用监督
学习
的分类问题。谢谢!
浏览 0
提问于2021-11-15
得票数 0
回答已采纳
2
回答
四连排游戏
强化
学习
的最佳算法
、
对于四连胜的游戏,
强化
学习
的最佳算法是什么?我想构建一个四连排的游戏,它将使用RL算法之一来玩: Q-Learning,MinMax等。 考虑到我使用的是Java,什么是最好的。
浏览 1
提问于2012-01-08
得票数 0
回答已采纳
2
回答
为了编写一个简单的人工智能程序来玩游戏,我需要什么知识?
、
、
、
、
我的课程之一是“机器
学习
入门”,我一直想在这门课上做一个个人项目。为了训练一个简单的人工智能程序来玩游戏,我需要获得什么知识?这是我目前在机器
学习
中所知道的-统计推断可能是近似正确的模型,包括泛化界和模型选择。支持向量机(SVM)促进弱
学习
者向强
学习
者
学习
: AdaBoost回归决策树 决策树修剪与随机林
浏览 0
提问于2017-01-04
得票数 9
回答已采纳
1
回答
将RNN的隐藏状态传递给另一个RNN
、
、
我正在使用
强化
学习
教一个人工智能,一个奥地利纸牌游戏,与不完美的信息,称为施纳普森。对于不同的游戏状态,我有不同的神经网络(使用不同的特征)来计算值/策略。
浏览 0
提问于2021-10-11
得票数 1
1
回答
深度
强化
学习
(keras-rl)提前停止
、
、
、
、
根据这些人(https://nihit.github.io/resources/spaceinvaders.
pdf
)的说法,使用深度
强化
学习
可以提前停止。
浏览 47
提问于2019-06-05
得票数 0
回答已采纳
1
回答
逆
强化
学习
的实际应用是什么?
、
逆
强化
学习
是利用专家轨迹
学习
奖励函数。目前最成功的方法是最大熵逆
强化
学习
。但在这一点上,你需要一个基于模型的
强化
学习
。但世界上大多数实际问题都是无模型的,很难计算出状态转移概率。那么,我们如何在现实问题中使用这种逆
强化
学习
呢?
浏览 0
提问于2018-04-02
得票数 3
回答已采纳
1
回答
为什么深层
强化
学习
不能学会如何玩小行星?
、
、
深入的Q-
学习
,A3C,政策进化的遗传算法,他们都没有
学习
小行星,或至少表现比人类差得多。根据RL的说法,从最艰难的Atari游戏来看,大部分的焦点都集中在蒙特祖马的复仇上,这显然受到了很少的奖励。以下是一些报告小行星上的坏结果的论文(有些文章互相引用):深度
强化
学习
的大规模并行
学习
方法基于深度
强化
学习
的网络结构决斗 优先
浏览 0
提问于2018-02-16
得票数 3
回答已采纳
1
回答
什么是建立实时游戏玩家模拟器的首选机器
学习
技术?
、
、
我已经开始建立一个人工智能引擎,
学习
玩俄罗斯方块,也就是一个引擎,可以提高它的性能,也许通过调整它的启发式,等等。比方说,我已经摆脱了GUI --我从哪里开始构建引擎呢?作为初学者,我应该使用哪些资源来理解与此相关的机器
学习
概念? 特别是,我正在寻找基于代码和实际例子的解释性材料,而不是对这一主题的数学处理。
浏览 3
提问于2011-11-11
得票数 2
回答已采纳
1
回答
如何在没有培训数据的情况下生成评等?
、
、
、
我想使用
强化
学习
来
学习
与用户反馈的评级,但不确定如何做到这一点。有人能为这个问题提出一个相关的技术或算法吗?
浏览 0
提问于2015-06-12
得票数 0
7
回答
如何实现深度
强化
学习
(DQN)?
、
、
DQN(Deep Q-Learning)可谓是深度
强化
学习
(Deep Reinforcement Learning,DRL)的开山之作,是将深度
学习
与
强化
学习
结合起来从而实现从感知(Perception)到动作( Action )的端对端(End-to-end)
学习
的一种全新的算法 ,该如何实现深度
强化
学习
(DQN)呢?
浏览 3402
提问于2018-10-10
1
回答
基于模型和模型的
强化
学习
我正在
学习
强化
学习
,我发现了令人困惑的信息。我知道有两种不同类型的
强化
学习
,基于模型和模型自由。在第二个图像中,可以看到TD
学习
,所以我不明白Td
学习
是另一种
强化
学习
还是基于模型的。 📷
浏览 0
提问于2022-02-21
得票数 0
回答已采纳
2
回答
为什么要将马尔可夫性质引入
强化
学习
?
、
、
作为深度
强化
学习
的初学者,我很困惑为什么我们应该在
强化
学习
中使用马尔可夫过程,以及它给
强化
学习
带来了什么好处。另外,马尔可夫过程要求在“已知”条件下,“现在”与“未来”无关。为什么一些深度
强化
学习
算法可以使用RNN和LSTM?这是否违反了马尔可夫过程的假设?
浏览 4
提问于2020-12-23
得票数 0
3
回答
为什么RL被称为“
强化
”
学习
?
、
、
我理解为什么机器
学习
是这样命名的,除此之外,还有监督
学习
和无监督
学习
背后的术语。那么,关于
强化
学习
,reinforced是什么?
浏览 63
提问于2018-05-28
得票数 4
回答已采纳
1
回答
强化
学习
-从原始像素
学习
、
为了进一步了解这些知识,我想探讨一下代理如何从原始像素中
学习
,并尝试使用H2O实现一个示例。我想使用Java。 但是,我仍然需要弄清楚如何使用Java从游戏中流出图像像素,以帮助h2o RL代理
学习
。示例主要使用R和Python。
浏览 7
提问于2017-05-08
得票数 0
回答已采纳
1
回答
什么是后悔界限?
、
我唯一能找到的解释是在论文博士中:“后悔界限是在线
学习
算法分析的共同线索。后悔界限衡量在线算法相对于竞争预测机制的性能,称为竞争假设。”
浏览 0
提问于2019-10-23
得票数 2
1
回答
随机森林算法曾用于
强化
学习
应用吗?
、
我见过一个描述“
强化
学习
树”的研究论文,作者说它比随机森林有更好的收敛性。 然而,我找不到任何与利用随机森林作为
强化
学习
的表格有关的东西。是否曾进行过使用随机森林
强化
学习
的测试?
浏览 0
提问于2017-08-14
得票数 4
回答已采纳
2
回答
Tic-Tac-Toe中的Tensorflow
**TLDR的底部我已经搜索了几天,而我只是不知道什么谷歌,因为我是非常新的机器
学习
。经过研究,我认为tensorflow是一个很好的起点(我愿意接受其他建议)。当我寻找tensorflow的例子时,它们都需要一个大型的数据存储库才能输入程序,但我更感兴趣的是创建一个在玩游戏时
学习
的AI,比如Tic Tac Toe。我很难搞清楚该怎么做。TLDR:有什么好的、简单的机器
学习
程序(最好是tensorflow)可以帮助我制作一个Tic-Tac-Toe AI。
浏览 1
提问于2019-03-19
得票数 0
回答已采纳
1
回答
如何用
强化
学习
算法建立实时控制器
、
我正在尝试使用
强化
学习
来控制一个实际的机器人操纵器。对于
强化
学习
,我使用的是Google tensorflow。C++中有没有使用Tensorflow
强化
学习
算法的方法?或者,有没有其他方法可以在C++实时控制器上实现
强化
学习
算法?由衷地, 史蒂夫
浏览 0
提问于2019-04-01
得票数 0
1
回答
状态损失函数与在线回归
、
、
在tensorflow + keras中工作,我试图定义一个自定义的丢失函数。注:我更感兴趣的是损失的价值,而不是预测的实际价值(这将用于异常检测)。在t时,我收到一个输入,这是当前的观察(y_t),我有过去的x时间步骤的历史。我希望将y_t值与y_t的预测值在t-1,.t-n中的每个值进行比较。我遇到的困难是如何在批间保留这些预测数
浏览 0
提问于2019-05-29
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
548页MIT强化学习教程,收藏备用PDF下载
《机器学习》笔记-强化学习
深度学习与强化学习
科普 强化学习
走进强化学习
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
腾讯会议
活动推荐
运营活动
广告
关闭
领券