腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
2
回答
强化学习算法
、
我想用强化学习机器学习的方法来研究和开发一些应用。我已经熟悉使用监督学习的分类问题。 有人能给我推荐一些资料(链接,youtube教程,pdf笔记,.)吗?还是Rstudio中的一些简单脚本(可能使用虹膜数据集)开始学习? 谢谢!
浏览 0
提问于2021-11-15
得票数 0
回答已采纳
3
回答
为什么RL被称为“强化”学习?
、
、
我理解为什么机器学习是这样命名的,除此之外,还有监督学习和无监督学习背后的术语。那么,关于强化学习,reinforced是什么?
浏览 63
提问于2018-05-28
得票数 4
回答已采纳
2
回答
为了编写一个简单的人工智能程序来玩游戏,我需要什么知识?
、
、
、
、
我是B.Sc毕业生。我的课程之一是“机器学习入门”,我一直想在这门课上做一个个人项目。 我最近听说了不同的人工智能训练来玩游戏,如马里奥,围棋等。 为了训练一个简单的人工智能程序来玩游戏,我需要获得什么知识?对于初学者来说,你推荐什么游戏? 这是我目前在机器学习中所知道的- 课程介绍和机器学习。K-最近邻算法和K-均值算法 统计推断 高斯混合模型(GMM)与期望最大化 可能是近似正确的模型,包括泛化界和模型选择。 基本的超平面算法:感知器和Winnow。 支持向量机(SVM) 核粒 促进弱学习者向强学习者学习: AdaBoost 边缘-感知器 回归 PCA 决策树 决策树修剪与随机林
浏览 0
提问于2017-01-04
得票数 9
回答已采纳
1
回答
强化学习-从原始像素学习
、
萨顿的书把我介绍给了RL。为了进一步了解这些知识,我想探讨一下代理如何从原始像素中学习,并尝试使用H2O实现一个示例。我想使用Java。 我应该用的是汽水吗? 如何将原始像素流到h2o?例如,如何使用乒乓球游戏使h2o RL代理学习?使用了什么深度学习h2o API? 如果答案与h2o有关,我将不胜感激,因为我参考了其他文献来了解RL。 更新: 但是,我仍然需要弄清楚如何使用Java从游戏中流出图像像素,以帮助h2o RL代理学习。示例主要使用R和Python。
浏览 7
提问于2017-05-08
得票数 0
回答已采纳
2
回答
“强化学习”在监督学习模型中的应用
、
、
、
是否可以在有监督的模型上使用“强化学习”或反馈回路? 我使用监督学习模型(更确切地说是线性回归模型)解决了一个机器学习问题,但我希望通过对预测输出创建一个反馈环来改进结果,即如果算法在某些例子上出错,就告诉算法。 据我所知,这基本上就是强化学习的工作原理:该模型从正负反馈中学习。 我发现我们可以使用PyBrain实现有监督学习和强化学习算法,但我无法找到两者之间的关联方法。
浏览 2
提问于2019-07-11
得票数 0
1
回答
如何在没有培训数据的情况下生成评等?
、
、
、
我正致力于自动生成餐厅评级,我有各种特征值,如送货时间、成本估算等。我想为每一家餐厅生成0到5之间的评级。但我没有任何培训数据或基本事实可供验证。此评等可能因用户而异。大部分相关工作,大多与Yelp数据挑战相关,都有一定的相关得分作为训练数据。我想使用强化学习来学习与用户反馈的评级,但不确定如何做到这一点。有人能为这个问题提出一个相关的技术或算法吗?
浏览 0
提问于2015-06-12
得票数 0
1
回答
您能否将强化学习添加到卷积神经网络中以改进图像分类?
、
、
我对机器和深度学习非常陌生。我的疑问是,如何将强化学习添加到使用传统神经网络开发的图像分类器中,以随着时间的推移提高其性能?
浏览 23
提问于2020-05-10
得票数 0
1
回答
监督学习与离线(批)强化学习
、
大多数材料(例如大卫·西尔弗的在线课程)我都能找到关于监督学习和强化学习之间关系的讨论。然而,它实际上是监督学习和在线强化学习的比较,在这种情况下,agent在环境中运行(或模拟交互),以获得对底层动力学的有限知识的反馈。 我对离线(批量)强化学习更感兴趣,在这里,数据集(收集的学习经验)是先验的。与监督学习相比,有什么不同?他们可能有哪些相似之处?
浏览 4
提问于2021-08-14
得票数 0
回答已采纳
1
回答
C++强化学习库
、
、
我一直在寻找一个实现强化学习算法的C++库,但对结果不是很满意。 我从TU Graz找到了,但不幸的是这个项目太旧了,我无法编译它。 还有来自的代码。它看起来很有希望,但似乎没有得到积极的维护。 在C++中,您使用哪些库进行强化学习?
浏览 2
提问于2012-01-06
得票数 15
3
回答
在深度强化学习中,神经网络的设计是否有经验法则?
、
、
在深入学习中,我们可以用损失函数值来评估模型的性能,并通过K倍交叉验证等方法来提高模型的性能。但是,如何设计和优化神经网络在深度强化学习中的应用呢?我们可以用奖励等来评估强化学习算法本身的性能,但是如何保证神经网络在强化学习算法中的应用是好的还是坏的呢?
浏览 0
提问于2019-02-08
得票数 3
1
回答
将RNN的隐藏状态传递给另一个RNN
、
、
我正在使用强化学习教一个人工智能,一个奥地利纸牌游戏,与不完美的信息,称为施纳普森。对于不同的游戏状态,我有不同的神经网络(使用不同的特征)来计算值/策略。我想尝试使用RNN,因为过去的操作对于导航未来的决策可能很重要。 然而,当我使用多个神经网络时,我需要不断地将隐藏状态从一个RNN转移到另一个RNN。我不能完全做到这一点,特别是在训练期间,我不知道如何通过时间进行反向传播。我很感谢您的任何建议或链接到相关的论文/博客! 我目前正在使用Julia中的Flux,但我也愿意使用Python中的Tensorflow或Py火炬。
浏览 0
提问于2021-10-11
得票数 1
3
回答
强化学习工具
Tensorforce、Kerasrl和chainerrl用于强化学习的区别是什么?据我所知,这三种方法都与OpenAI健身房环境有关,并且具有相同的强化学习算法。在表现上有什么不同吗?
浏览 1
提问于2018-09-10
得票数 1
2
回答
Tic-Tac-Toe中的Tensorflow
**TLDR的底部我已经搜索了几天,而我只是不知道什么谷歌,因为我是非常新的机器学习。经过研究,我认为tensorflow是一个很好的起点(我愿意接受其他建议)。当我寻找tensorflow的例子时,它们都需要一个大型的数据存储库才能输入程序,但我更感兴趣的是创建一个在玩游戏时学习的AI,比如Tic Tac Toe。我很难搞清楚该怎么做。任何建议都有帮助,谢谢! TLDR:有什么好的、简单的机器学习程序(最好是tensorflow)可以帮助我制作一个Tic-Tac-Toe AI。
浏览 1
提问于2019-03-19
得票数 0
回答已采纳
2
回答
主动学习和强化学习有什么区别?
、
、
、
维基百科: 主动学习是机器学习的一种特例,在这种情况下,学习算法可以交互地查询用户(或其他一些信息源),用期望的输出标记新的数据点。强化学习( Reinforcement,RL)是机器学习的一个领域,它关注的是软件agents应该如何在环境中采取行动,以最大化累积报酬的概念。 如何区分他们?确切的区别是什么?
浏览 0
提问于2020-11-13
得票数 14
回答已采纳
2
回答
Python神经网络强化学习
、
、
、
我想做一个神经网络,利用强化学习在python中进行训练。 X -> [ANN] -> yEstimate -> score! -> (repeat until weights are optimised) 目前我正在使用Scikit--学习,但似乎没有所有的神经网络东西都试图将yEstimate与yTarget相匹配。 科学知识有秘密吗?还是有其他我不知道的库来完成这个任务? 谢谢!
浏览 6
提问于2015-12-24
得票数 7
回答已采纳
1
回答
并行Q-学习
、
、
、
、
我正在寻找学术论文或其他可信的来源,侧重于平行强化学习的主题,特别是Q-学习。我最感兴趣的是在进程之间共享Q表的方法(如果每个进程都有自己的进程,则将它们连接/同步在一起)。我也希望对链接/提到的来源中使用的方法进行简要的描述。 我应该指出,我使用神经网络(PyBrain)作为近似。
浏览 0
提问于2016-01-14
得票数 4
1
回答
什么是后悔界限?
、
我搜索了这个术语,它出现在几篇文章中,但使用时没有解释。我唯一能找到的解释是在论文博士中:“后悔界限是在线学习算法分析的共同线索。后悔界限衡量在线算法相对于竞争预测机制的性能,称为竞争假设。” 读完这篇文章后,我仍然感到困惑(我没有读过论文的其余部分,因为这远远超出了我对这一领域的理解)。谁能解释一下吗?事先非常感谢!
浏览 0
提问于2019-10-23
得票数 2
1
回答
没有隐藏层的NN是否表现为回归?
、
、
没有隐藏层的神经网络是否表现为回归?没有隐藏层的NN能说我们什么? 例如,如果我们有20个输入和4个输出,而我没有真正的标签,这是否类似于回归? 如果它是一个回归,那么它将是一个监督学习,但没有真正的标签! 这个澄清里面有什么不对? 更多的说明:此外,我有一个dqn (一个深入学习结构的Q-学习方法)!不幸的是,我没有最理想的答案!我正在寻找一种方法来比较我的结果,也许我可以用一个联合国/监督的学习方法来比较,而不是DNN!例如,您可以在没有隐藏层的情况下放置一个DNN,因为它的行为类似于线性回归,那么您可以将每个有监督的学习代替它!由于没有真正的标签,我有问题的培训部分和估计DNN部分与监督
浏览 0
提问于2018-08-31
得票数 6
1
回答
为RL选择若干神经元
如果我想用DQN训练我的强化学习代理,我如何选择神经元的数量? 在监督学习中,选择太少或过多会导致电位过低(缺少神经元),或者由于过度拟合(例如,神经元过多)而导致泛化差。我们可以用遗传算法来确定超参数的最佳组合,而不是手工尝试。 然而,在RL中,泛化甚至是一件事吗?毕竟,我们是在训练一只蜘蛛以最有效的方式移动它的四肢,一只手臂以最快的方式抓住一个盒子,等等。 一旦学会了,我们甚至可以改变环境,期望代理人表现良好,推广到新环境吗? 因此,选择神经元甚至是RL的一件事,还是我们可以给它尽可能多的神经元和层,让它学习生物肢体的正确运动?
浏览 0
提问于2018-06-10
得票数 4
回答已采纳
2
回答
信息提取结合强化学习,可行吗?
、
、
、
我想知道是否可以使用强化学习(因为它将越来越流行的谷歌DeepMind &AlphaGo的东西)来解析和提取文本信息。 例如,它是否是结构化预测的竞争性方法,例如 命名实体识别(NER),即“城市”标记纽约的任务和“组织”词性标记(POS)的“纽约时报”,即将单词归类为行列式、名词等信息提取,即在文本中查找和标记某些目标信息,例如12/03号日期被赋予上下文含义为12月3日,是否有标签“终止日期”是用来完成这些任务的相关模型? 我会天真地想到一个指针,它从头到尾阅读文本,并用标签标注每个字母。也许它会学到“单词”中的相邻字母都有相同的标签,等等,它能用这种方法来学习长期的依赖关系吗?
浏览 0
提问于2016-03-12
得票数 4
回答已采纳
1
回答
利用机器学习进行优化的项目
我想做一个网站项目,使用机器学习,以优化汽车吞吐量在一个城市。这将是一个卡通网格的点试图导航通过一个网格的街道与红灯在每个十字路口。但是,我还没有找到正确的资源来学习这种类型的ML优化。 开始的想法是,每个时代都会给红绿灯的栅格设置相同的一组汽车,红绿灯猜出自己的绿/红频率,以最大限度地增加交通流量。因此,该模型将学习的衡量标准是通过灯光行驶的汽车数量(或者说所有的汽车都需要时间来清理城市,目前还不确定)。 我做过谷歌ML速成班和“人工智能程序员指南”一书,但我还没有找到我正在寻找的合适类型的ML。我正在寻找一个学习资源来训练一个没有标签数据的模型,并提供一个优化的度量。
浏览 8
提问于2022-08-23
得票数 -2
回答已采纳
1
回答
主动学习推荐系统
、
、
、
我有数据,公司要求用户打分一堆问题,但有些项目可能是随机选择,而另一些是个性化的。用户在个性化问题上的得分平均较高。我有一个用户ID,问题ID,相应的分数由用户提问,以及问题是随机的还是个性化的。 我想要建立一个推荐系统,其中包含了一个问题的特点是随机或个性化。 我假设,如果要出现个性化项目,就必须对公司事先了解到的关于用户的随机问题进行一些学习。 但是,在如何建立一个包含动态结构的推荐系统方面,我完全迷失了方向。 我知道基本的建议包括矩阵分解或嵌入用户项矩阵,但我不知道如何适应学习。 如有任何见解/参考相关文献/相关守则,我将不胜感激。
浏览 0
提问于2020-05-06
得票数 2
回答已采纳
2
回答
四连排游戏强化学习的最佳算法
、
对于四连胜的游戏,强化学习的最佳算法是什么?我想构建一个四连排的游戏,它将使用RL算法之一来玩: Q-Learning,MinMax等。 考虑到我使用的是Java,什么是最好的。
浏览 1
提问于2012-01-08
得票数 0
回答已采纳
1
回答
一个问题:我是否有可能创造一个人工智能来学习玩我没有创造的游戏?
、
、
主要是,我有一个问题,我在任何地方都找不到答案,关于一个人工智能机器学习游戏。 我是否有可能创建一个AI,它可以学习一个我自己没有创建的游戏,没有任何源代码或API?我说的是一些简单的游戏,如chrome,snake等。有人告诉我,这是可以用图像处理的,但我还是不太确定。我指的是打开一个游戏,而不是一个下载的游戏,一个在google上可用的游戏,如上面提到的,运行我的代码,它将开始玩和学习这个游戏。只是创建一个算法来学习多个简单的2D谷歌游戏,这样的事情是否有可能与图像处理?
浏览 0
提问于2019-09-20
得票数 1
4
回答
神经网络真的被抛弃了吗?
、
我计划使用神经网络来逼近强化学习算法中的值函数。我想这样做是为了对我如何表示状态和行为引入一些概括和灵活性。 现在,在我看来,神经网络是正确的工具,但我在这里的能见度有限,因为我不是一个人工智能专家。特别是,最近似乎神经网络正在被其他技术所取代,例如支持向量机,但我不确定这是否是一种时尚问题,或者神经网络是否存在一些真正的局限性,可能会毁灭我的方法。你有什么建议吗? 谢谢, 图努兹
浏览 6
提问于2011-08-02
得票数 6
回答已采纳
1
回答
如何使用tensorflow.Estimator进行强化学习
、
tensorflow.Estimator似乎倾向于监督学习,但似乎很难采用其他任务,即使只需要对模型或训练进行很小的更改。例如,在强化学习中,我需要提供一个不属于features的奖励值。
浏览 0
提问于2018-03-14
得票数 5
1
回答
深度学习:是否有任何开源库可以与Hadoop流和MapReduce集成?
、
Google搜索推出了许多开源的深度学习框架。这是一个收集的列表 Google TensorFlow Theano mxnet keras Pylearn2 Blocks Lasagne chainer scikit-neuralnetwork theano-lights deepy idlf reinforce.js opendeep mxnet.js CGT Torch Caffe scikit-cuda cuda4py 用Hadoop流和MapReduce可以直接实现哪一个? 优先考虑Python,也可以考虑使用其他语言。 编辑: 目前我主要对深度强化学习和LSTM感兴趣。
浏览 0
提问于2016-01-21
得票数 2
回答已采纳
1
回答
使用机器学习来玩游戏集
、
、
最近我试着制作一个可以玩游戏集的CNN:https://en.wikipedia.org/wiki/Set_(游戏)。 然而,在使用我自己的卷积神经网络并尝试重新训练Inception-V3和AlexNet将三张卡片的图片分类为"set“和"notSet”之后,我很快了解到,CNN对于这项任务是没有用的。 哪种机器学习算法对玩这个游戏是有用的?支持向量机有效吗? 这里有指向我的最后一个问题的链接(有一些代码)和Github,其中包括数据集的示例图像。 凯拉斯·瓦尔_acc在培训时保持不变(分配给所有图像的相同标签) https://github.com/Keyan-Rhm/ML
浏览 0
提问于2018-02-23
得票数 1
1
回答
自我监督学习在ML中有哪些缺点?
、
、
、
、
在过去的几年里,自我监督学习一直在上升。与其他学习方法(如监督学习和半监督学习)相比,它具有一定的优势,因为它不需要标记数据。 我想知道自我监督学习是否有什么缺点,在什么方面半监督学习比它更好。
浏览 2
提问于2021-09-08
得票数 0
回答已采纳
5
回答
进化计算是一种强化学习的方法吗?
、
、
、
什么是进化计算?这是强化学习的方法吗?还是一种单独的机器学习方法?或者一个都没有? 请引用用来回答这个问题的参考资料。
浏览 4
提问于2012-09-13
得票数 13
回答已采纳
3
回答
使用强化学习解决分类问题
、
、
我可以在分类中使用强化学习吗?比如人类活动识别?又是如何做到的?
浏览 2
提问于2017-06-17
得票数 11
2
回答
多agent强化学习与多目标强化学习
、
所有人。 多agent强化学习与多目标强化学习有什么区别? 你能解释一下这两种方法的优缺点吗? 我认为这两种方法都能达到一些目标..。
浏览 7
提问于2022-09-21
得票数 1
回答已采纳
1
回答
二值分类的强化算法
、
、
我是机器学习的新手,但在过去的两天里,我读了很多关于强化学习的文章。我有一个获取项目列表的应用程序(例如从Upwork)。有一个审核者手动接受或拒绝一个项目(基于下面解释的一些参数)。如果一个项目被接受,我想发送一个项目提案,如果它被拒绝,我将忽略它。我希望用AI代替版主(还有其他原因),所以我想知道我应该使用哪种增强算法。 参数:下面列出了一些应该决定代理是否接受或拒绝项目的参数。假设我只想接受与web开发相关的项目(特别是后端/服务器端),这里是参数应该如何影响代理。 部门:如果项目是与IT部门相关的,那么应该有更多的机会被接受。 类别:如果项目属于Web开发类别,则应该有更多被接受的机会
浏览 0
提问于2018-08-16
得票数 1
5
回答
强化学习还是监督学习?
、
如果在强化学习(RL)算法在现实世界中工作之前,需要在模拟环境中进行大量迭代,为什么我们不使用相同的模拟环境来生成标记数据,然后使用监督学习方法而不是RL?
浏览 3
提问于2018-11-14
得票数 1
1
回答
将"-pie“添加到YOCTO中的链接器标志
、
、
、
我正在尝试向YOCTO中的所有包添加编译器和链接器标志。目前,我在machine.conf中添加了以下内容: TARGET_CFLAGS_append =“-fstack-protector-strong -D_FORTIFY_SOURCE=2 -fPIE”TARGET_LDFLAGS_append =“-pie -Wl,-z,now -Wl,-z,relro” 当我将"-pie“选项添加到LDFLAGS时,我得到了一个问题,即共享库也使用"-pie”标志链接,这会导致错误。 如何强制Yocto在链接可执行文件时添加"-pie“链接器标志,而不是在链接库时添加?
浏览 14
提问于2018-08-01
得票数 0
2
回答
神经网络中的Q-学习而不是学习
、
、
我做了一个简单的Tron游戏在C++和一个MLP与一个隐藏层。我已经在这个神经网络中实现了Q-学习,然而,它并没有导致代理赢得更多的游戏时间(甚至在100万次游戏之后)。我将尝试用文字解释我做了什么,希望有人能发现一个错误,这可能导致这个问题。 在每个州有四个可能的移动(北,东,南,西)和奖励在游戏结束(-1的损失,0的平局,1的胜利)。 我初始化了4个MLP,每个可能的动作一个,有100个输入节点(整个游戏网格10x10),其中每个点是1如果玩家本身在那里,0如果点是空的,-1如果对手访问过这个点。然后有50个隐藏节点和1个输出节点(我也尝试过一个有4个输出节点的网络,但这也没有帮助)。重量
浏览 2
提问于2016-10-19
得票数 2
1
回答
机器怎么知道哪一步能得到最大的奖励?
、
在我看来,强化学习会从行动中得到回报。 然而,在玩电子游戏时,大多数步骤(如:街头拳击手)都没有奖励(奖励== 0 ),最终,我们得到了奖励(例如:玩家赢了,奖励=1),有这么多动作,机器怎么知道哪一个是赢得这个游戏的关键?
浏览 0
提问于2019-05-07
得票数 2
回答已采纳
2
回答
关于隐马尔可夫模型和条件随机场的混淆
、
我对隐马尔可夫模型和条件随机场有点困惑。我想知道它们是监督学习方法还是无监督学习方法?谢谢
浏览 0
提问于2011-01-28
得票数 2
回答已采纳
3
回答
为什么适合/训练一个模型可以被认为是学习?
、
我环顾四周,找不到一个好的答案,我只想知道为什么它可以被认为是学习,而不仅仅是“校准”或“参数化”。 我觉得“学习”这个词对于模特们所做的事情来说太合适了。 提前谢谢。
浏览 0
提问于2021-01-20
得票数 4
回答已采纳
1
回答
在深入强化学习的背景下,批量大小的含义是什么?
、
批次大小是指在监督学习中接受神经工作训练的样本数,但是,在强化学习的背景下,批次大小的意义是什么?它也是指样品吗?如果是的话,在强化学习的背景下,样本的意义是什么?
浏览 0
提问于2019-04-02
得票数 3
回答已采纳
1
回答
使用python包chatterbot进行机器学习
、
、
整个聊天机器人,我们向机器人提供数据,它会做出相应的响应。但是为什么他们说这是一个机器学习对话对话。我在其中看不到任何机器学习。 至少如果机器人没有用户说话的数据,如果它下次自动学习和说话,那么我们可以接受机器学习的存在。 有谁能开导我吗?
浏览 1
提问于2018-03-09
得票数 0
1
回答
什么是强化学习的最佳方式,RNN或其他预测我们必须采取的最佳行动,以实现销售最大化?
、
、
、
我有一个由几个特性组成的数据集: customerId, actionDay1, SalesDay1, actionDay20, SalesDay20, actionDay30, SalesDay30 行动可以是: 打电话 电子邮件 脸2面 没什么 销售额:以美元计的销售额 我在这里的目标是预测在任何一天(1,20或30)我们必须采取的最佳行动,以销售更多。 有些顾客更喜欢电子邮件,有些人喜欢每次打电话,另一些人则不愿被联系购买。 每个客户的模式是不同的。我最初的想法是将强化学习应用到这个问题上,但我发现在做正确的环境时遇到了一些困难,同时也发现了奖励功能。在没有数据的情况下,强化学习是有效的
浏览 0
提问于2019-07-09
得票数 2
2
回答
机器学习(无监督方法)
、
我有一个关于强化学习的问题。如果我们在无监督方法中使用一种机制来发现环境的响应,以提高其性能,那么该方法仍然是无监督的吗? 换句话说,使用环境的响应,一个方法是有监督的,还是我们可以以无监督的方式来做?如果是这样的话,是怎么做的?
浏览 0
提问于2013-12-08
得票数 2
1
回答
什么是建立实时游戏玩家模拟器的首选机器学习技术?
、
、
我已经开始建立一个人工智能引擎,学习玩俄罗斯方块,也就是一个引擎,可以提高它的性能,也许通过调整它的启发式,等等。比方说,我已经摆脱了GUI --我从哪里开始构建引擎呢?作为初学者,我应该使用哪些资源来理解与此相关的机器学习概念? 特别是,我正在寻找基于代码和实际例子的解释性材料,而不是对这一主题的数学处理。
浏览 3
提问于2011-11-11
得票数 2
回答已采纳
1
回答
购物车极点w/强化学习框架
、
我正在做一个边项目,就是建立一个倒立摆问题的模型,然后用一个强化学习算法来解决它,最显著的是Q-学习。我已经为网格世界设计了一个简单的MDP解决程序--简单的东西。 然而,经过数天的研究论文之后,我很难弄清楚如何做到这一点。什么也没有解释如何建立一个框架来表示问题。 在对问题进行建模时,可以使用标准的马尔可夫决策过程吗?或者它必须是一个POMDP? 在每个状态中表示什么(即传递给代理的是什么状态信息)?钟摆的坐标、速度、角度等? 特工能采取什么行动?它是一个在+或-x方向的连续的速度范围吗? 在这方面的建议是非常感谢的。
浏览 7
提问于2013-01-22
得票数 0
3
回答
学会使用GPU吗?
、
、
、
、
阅读scikit的实现--在TensorFlow:和scikit中学习--学习:,我正在努力决定使用哪个实现。 学习是作为tensorflow码头容器的一部分安装的,所以可以使用这两种实现。 使用scikit的理由--学习: 与tensorflow实现相比,学习包含更少的样板。 使用tensorflow的原因: 如果运行在Nvidia GPU上,算法将被并行运行,我不确定scikit-learn是否会利用所有可用的GPU? 读取 TensorFlow更低层次;基本上,乐高积木可以帮助您实现机器学习算法,而scikit- learning则为您提供现成的算法,例如支持向量机、随
浏览 10
提问于2017-01-10
得票数 108
回答已采纳
2
回答
基于强化学习的神经网络训练
、
、
、
、
我知道前馈神经网络的基本知识,以及如何使用反向传播算法来训练它们,但我正在寻找一种比我能用来训练神经网络的强化学习的算法。 例如,问题是我想用人工神经网络解决的问题。在这种情况下,我不知道应该做什么来控制钟摆,我只知道我离理想的位置有多近。我需要让安在奖惩的基础上学习。因此,监督学习不是一种选择。 另一种情况类似于,在这种情况下,反馈被延迟,只限于目标和反目标,而不是奖励。 对于第一种情况,我可以想到一些算法,比如爬山或遗传算法,但我猜它们都会很慢。它们也可能适用于第二种情况,但速度慢得令人难以置信,不利于在线学习。 我的问题很简单:是否有一个简单的算法来训练带有强化学习的人工神经网络?我主要
浏览 1
提问于2012-05-23
得票数 67
回答已采纳
1
回答
作为Q值函数逼近器,如何提高前馈网络的性能?
、
、
、
我试图在n*n网格世界域中导航代理,使用Q-学习+前馈神经网络作为Q-函数逼近器。基本上,代理应该找到最佳/最短的方式来达到某一终端目标位置(+10奖励)。特工采取的每一步都会得到-1的奖励。在网格世界中,代理也应该避免某些位置(-10奖励,终端状态也是如此)。 到目前为止,我实现了一个Q学习算法,它将所有的Q值保存在一个Q表中,并且代理执行得很好。在接下来的步骤中,我想用神经网络代替Q表,在agent的每一步都进行在线训练。我尝试了一个具有一个隐藏层和四个输出的前馈神经网络,表示网格世界(北、南、东、西)中可能的动作的Q值。作为输入,我使用了一个nxn零矩阵,在代理当前的位置上有一个"
浏览 3
提问于2016-06-20
得票数 0
回答已采纳
1
回答
为什么环境状态是马尔可夫?
、
我有一个与强化学习相关的问题,为什么环境状态是马尔可夫?我在某处读到过它的定义,但是我不能理解环境状态的定义是马尔可夫的。
浏览 1
提问于2016-05-26
得票数 0
1
回答
如何营造自己的强化学习环境?
、
、
我们如何建立自己的强化学习环境?我很怀疑游戏引擎是否被使用..。如果使用游戏引擎,哪个游戏引擎可以免费下载?
浏览 0
提问于2021-04-17
得票数 2
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大脑是如何学习的?元强化学习系统或揭秘!
元强化学习迎来一盆冷水:不比元Q学习好多少
机器人强化学习,0元免费学
元学习热度不再!ICLR 2022投稿趋势:强化学习榜首,深度学习第二
《机器学习》笔记-强化学习
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券