sutton 强化学习中文版_Sutton:强化学习-笔记参考请求_我如何运行Sutton和Barton的"强化学习"Lisp代码？ - 腾讯云开发者社区

、

我目前正在阅读萨顿关于强化学习的介绍。在进入第10章(基于近似的政策预测)之后，我现在想知道如何选择函数q的形式，其中最优权重w将被近似。我指的是Sutton下面伪代码的第一行:如何选择一个好的可微函数？有什么标准的策略来选择吗？

浏览 6提问于2017-07-25得票数 4

回答已采纳

1回答

连续动作-状态-空间和平铺

、

在习惯了离散动作-状态-空间中的Q-Learning算法之后，我现在想将其扩展到连续空间。为了做到这一点，我阅读了萨顿介绍中的On-Policy Control with Approximation一章。这里，推荐使用像线性函数或ANN这样的可微函数来解决连续动作状态空间的问题。然而，Sutton随后描述了将连续变量映射到离散表示的平铺方法。这总是必要的吗？为了理解这些方法，我尝试在没有平铺方法和线性基函数q的情况下实现了书中的Hill Climbing Car示例。因为我的状态空间是二维的，而我的操作是一维的，所以我在这个等式中使用了一个三维权重向量w：当我现在尝试选择最大化输出的

浏览 5提问于2017-07-26得票数 2

2回答

广义优势评估是如何工作的？

、

我已经尝试将盖伊添加到我的A2C实现中已有一段时间了，但我似乎不太明白它是如何工作的。我对它的理解是，它通过某种“平均输出”(或泛化)的方式减少了优势估计函数的方差，这种方法基于推出中的值。我试着自己计算数学，最后我在整个展示中有一个优势，对吗？通常，我们在推出时的每一个时间步骤都有一个优势。有人能解释一下GAE的直觉吗？

浏览 0提问于2018-06-01得票数 11

回答已采纳

5回答

进化计算是一种强化学习的方法吗？

、、、

什么是进化计算？这是强化学习的方法吗？还是一种单独的机器学习方法？或者一个都没有？请引用用来回答这个问题的参考资料。

浏览 4提问于2012-09-13得票数 13

回答已采纳

1回答

lambda可以与非策略强化学习和经验回放一起使用吗？

DQN使用非策略RL，以便从通过遵循任何策略收集的经验数据中学习最优策略，例如观察专家、先前的非最优策略等。体验是以下形式的数据集合： (s1、a1、r2、s2) 这里的r2是在执行a1之后立即收到的实际奖励。这些经验用于设置以下形式的监督学习示例：净投入：(s1，a1)，净目标: r2 +γ*argmax(a，Q(s2，a) 可以通过使用带有资格跟踪的lambda来计算r2吗？我猜它不能，因为这将使r2依赖于用于生成体验的策略，而这不是正在学习的策略。 lambda是否仅适用于策略上的RL？

浏览 0提问于2017-12-12得票数 1

2回答

强化学习算法

、

我想用强化学习机器学习的方法来研究和开发一些应用。我已经熟悉使用监督学习的分类问题。有人能给我推荐一些资料(链接，youtube教程，pdf笔记，.)吗？还是Rstudio中的一些简单脚本(可能使用虹膜数据集)开始学习？谢谢!

浏览 0提问于2021-11-15得票数 0

回答已采纳

3回答

为什么RL被称为“强化”学习？

、、

我理解为什么机器学习是这样命名的，除此之外，还有监督学习和无监督学习背后的术语。那么，关于强化学习，reinforced是什么？

浏览 63提问于2018-05-28得票数 4

回答已采纳

2回答

为了编写一个简单的人工智能程序来玩游戏，我需要什么知识？

、、、、

我是B.Sc毕业生。我的课程之一是“机器学习入门”，我一直想在这门课上做一个个人项目。我最近听说了不同的人工智能训练来玩游戏，如马里奥，围棋等。为了训练一个简单的人工智能程序来玩游戏，我需要获得什么知识？对于初学者来说，你推荐什么游戏？这是我目前在机器学习中所知道的- 课程介绍和机器学习。K-最近邻算法和K-均值算法统计推断高斯混合模型(GMM)与期望最大化可能是近似正确的模型，包括泛化界和模型选择。基本的超平面算法:感知器和Winnow。支持向量机(SVM) 核粒促进弱学习者向强学习者学习: AdaBoost 边缘-感知器回归 PCA 决策树决策树修剪与随机林

浏览 0提问于2017-01-04得票数 9

回答已采纳

1回答

强化学习-从原始像素学习

、

萨顿的书把我介绍给了RL。为了进一步了解这些知识，我想探讨一下代理如何从原始像素中学习，并尝试使用H2O实现一个示例。我想使用Java。我应该用的是汽水吗？如何将原始像素流到h2o？例如，如何使用乒乓球游戏使h2o RL代理学习？使用了什么深度学习h2o API？如果答案与h2o有关，我将不胜感激，因为我参考了其他文献来了解RL。更新：但是，我仍然需要弄清楚如何使用Java从游戏中流出图像像素，以帮助h2o RL代理学习。示例主要使用R和Python。

浏览 7提问于2017-05-08得票数 0

回答已采纳

4回答

哪种人工智能算法最适合下棋？

、、、、

我正在研究我的象棋机器人，我想为它实现简单的人工智能。我是新来的，所以我不知道怎么下国际象棋。我听说过Q-学习，监督/非监督学习，遗传算法，等等，这可能不是国际象棋。我想知道AlphaZero是如何创建的？可能是遗传算法，但国际象棋是“如果A然后B”可能不起作用的游戏。这意味着Q-学习对它也是有害的，等等。有什么建议要用吗？注意:我找到了数据集，虽然它还包括低级别的玩家游戏，所以我不确定是否可以用这个来训练机器人

浏览 0提问于2021-12-01得票数 2

2回答

“强化学习”在监督学习模型中的应用

、、、

是否可以在有监督的模型上使用“强化学习”或反馈回路？我使用监督学习模型(更确切地说是线性回归模型)解决了一个机器学习问题，但我希望通过对预测输出创建一个反馈环来改进结果，即如果算法在某些例子上出错，就告诉算法。据我所知，这基本上就是强化学习的工作原理:该模型从正负反馈中学习。我发现我们可以使用PyBrain实现有监督学习和强化学习算法，但我无法找到两者之间的关联方法。

浏览 2提问于2019-07-11得票数 0

2回答

交易中的强化算法

我试图在交易场景中实现一个强化学习算法。以最终利润作为回报，对我来说似乎很自然。然而，在这种情况下，每一个交易插曲，只有一个奖励，在最后获得。是否有任何RL算法只能根据最终奖励来学习？如果这是一个马里奥游戏，我怎么能训练一个网络仅仅基于一个奖励在水平结束，但这取决于所有以前的行动？我想做的和https://dzone.com/articles/trading-strategies-using-deep-reinforcement-learni非常相似

浏览 0提问于2020-02-19得票数 0

1回答

火狐中的中文代替日文

、、、

我正在学习日语的网站Wanikani和我使用他们的社区。在这里，我注意到字符直显示在中文版 📷 而不是日文版 📷 。在Chrome中，日文版本是正确的显示，以及终端或文本编辑器。我在Firefox中的字体设置是： 📷 以下是对@Ray评论的回应:在http://www.rikai.com/library/kanjitables/kanji_codes.unicode.shtml上，我发现中文版本为76f4。这也是日本字典https://jisho.org/search/%E7%9B%B4%20%23kanji给出的代码。这一页写着： 1-36-30 JIS X 0208-199

浏览 0提问于2020-10-08得票数 2

1回答

如何在没有培训数据的情况下生成评等？

、、、

我正致力于自动生成餐厅评级，我有各种特征值，如送货时间、成本估算等。我想为每一家餐厅生成0到5之间的评级。但我没有任何培训数据或基本事实可供验证。此评等可能因用户而异。大部分相关工作，大多与Yelp数据挑战相关，都有一定的相关得分作为训练数据。我想使用强化学习来学习与用户反馈的评级，但不确定如何做到这一点。有人能为这个问题提出一个相关的技术或算法吗？

浏览 0提问于2015-06-12得票数 0

1回答

您能否将强化学习添加到卷积神经网络中以改进图像分类？

、、

我对机器和深度学习非常陌生。我的疑问是，如何将强化学习添加到使用传统神经网络开发的图像分类器中，以随着时间的推移提高其性能？

浏览 23提问于2020-05-10得票数 0

1回答

监督学习与离线(批)强化学习

、

大多数材料(例如大卫·西尔弗的在线课程)我都能找到关于监督学习和强化学习之间关系的讨论。然而，它实际上是监督学习和在线强化学习的比较，在这种情况下，agent在环境中运行(或模拟交互)，以获得对底层动力学的有限知识的反馈。我对离线(批量)强化学习更感兴趣，在这里，数据集(收集的学习经验)是先验的。与监督学习相比，有什么不同？他们可能有哪些相似之处？

浏览 4提问于2021-08-14得票数 0

回答已采纳

1回答

C++强化学习库

、、

我一直在寻找一个实现强化学习算法的C++库，但对结果不是很满意。我从TU Graz找到了，但不幸的是这个项目太旧了，我无法编译它。还有来自的代码。它看起来很有希望，但似乎没有得到积极的维护。在C++中，您使用哪些库进行强化学习？

浏览 2提问于2012-01-06得票数 15

3回答

在深度强化学习中，神经网络的设计是否有经验法则？

、、

在深入学习中，我们可以用损失函数值来评估模型的性能，并通过K倍交叉验证等方法来提高模型的性能。但是，如何设计和优化神经网络在深度强化学习中的应用呢？我们可以用奖励等来评估强化学习算法本身的性能，但是如何保证神经网络在强化学习算法中的应用是好的还是坏的呢？

浏览 0提问于2019-02-08得票数 3

1回答

将RNN的隐藏状态传递给另一个RNN

、、

我正在使用强化学习教一个人工智能，一个奥地利纸牌游戏，与不完美的信息，称为施纳普森。对于不同的游戏状态，我有不同的神经网络(使用不同的特征)来计算值/策略。我想尝试使用RNN，因为过去的操作对于导航未来的决策可能很重要。然而，当我使用多个神经网络时，我需要不断地将隐藏状态从一个RNN转移到另一个RNN。我不能完全做到这一点，特别是在训练期间，我不知道如何通过时间进行反向传播。我很感谢您的任何建议或链接到相关的论文/博客！我目前正在使用Julia中的Flux，但我也愿意使用Python中的Tensorflow或Py火炬。

浏览 0提问于2021-10-11得票数 1

3回答

强化学习工具

Tensorforce、Kerasrl和chainerrl用于强化学习的区别是什么？据我所知，这三种方法都与OpenAI健身房环境有关，并且具有相同的强化学习算法。在表现上有什么不同吗？

浏览 1提问于2018-09-10得票数 1

2回答

Tic-Tac-Toe中的Tensorflow

**TLDR的底部我已经搜索了几天，而我只是不知道什么谷歌，因为我是非常新的机器学习。经过研究，我认为tensorflow是一个很好的起点(我愿意接受其他建议)。当我寻找tensorflow的例子时，它们都需要一个大型的数据存储库才能输入程序，但我更感兴趣的是创建一个在玩游戏时学习的AI，比如Tic Tac Toe。我很难搞清楚该怎么做。任何建议都有帮助，谢谢！ TLDR:有什么好的、简单的机器学习程序(最好是tensorflow)可以帮助我制作一个Tic-Tac-Toe AI。

浏览 1提问于2019-03-19得票数 0

回答已采纳

2回答

主动学习和强化学习有什么区别？

、、、

维基百科：主动学习是机器学习的一种特例，在这种情况下，学习算法可以交互地查询用户(或其他一些信息源)，用期望的输出标记新的数据点。强化学习( Reinforcement，RL)是机器学习的一个领域，它关注的是软件agents应该如何在环境中采取行动，以最大化累积报酬的概念。如何区分他们？确切的区别是什么？

浏览 0提问于2020-11-13得票数 14

回答已采纳

2回答

Python神经网络强化学习

、、、

我想做一个神经网络，利用强化学习在python中进行训练。 X -> [ANN] -> yEstimate -> score! -> (repeat until weights are optimised) 目前我正在使用Scikit--学习，但似乎没有所有的神经网络东西都试图将yEstimate与yTarget相匹配。科学知识有秘密吗?还是有其他我不知道的库来完成这个任务？谢谢!

浏览 6提问于2015-12-24得票数 7

回答已采纳

1回答

并行Q-学习

、、、、

我正在寻找学术论文或其他可信的来源，侧重于平行强化学习的主题，特别是Q-学习。我最感兴趣的是在进程之间共享Q表的方法(如果每个进程都有自己的进程，则将它们连接/同步在一起)。我也希望对链接/提到的来源中使用的方法进行简要的描述。我应该指出，我使用神经网络(PyBrain)作为近似。

浏览 0提问于2016-01-14得票数 4

1回答

如何将所选项从角ui下拉列表发送回角控制器。

、、、、

使用角用户界面时，请考虑以下几点： <div class="btn-group" dropdown is-open="status.isopen"> <button type="button" class="btn btn-default btn-labeled dropdown-toggle fa fa-location-arrow" dropdown-toggle ng-disabled="disabled"> Location: {{ loc }} <span cla

浏览 3提问于2015-02-01得票数 5

回答已采纳

2回答

强化学习:强化算法中的折扣奖励

、

我正在研究强化学习的强化算法。我很难理解如何计算奖励。来自Sutton &Barto的算法： 📷 ‘从步骤t返回’是什么意思？从步骤t返回到步骤T1，即R_t + R_(t+1) +.+R_(T1)？从步骤0返回到步骤t?，即R_0 + R_1 +.+ R_(t)？

浏览 0提问于2018-09-13得票数 4

回答已采纳

1回答

没有隐藏层的NN是否表现为回归？

、、

没有隐藏层的神经网络是否表现为回归？没有隐藏层的NN能说我们什么？例如，如果我们有20个输入和4个输出，而我没有真正的标签，这是否类似于回归？如果它是一个回归，那么它将是一个监督学习，但没有真正的标签！这个澄清里面有什么不对？更多的说明:此外，我有一个dqn (一个深入学习结构的Q-学习方法)！不幸的是，我没有最理想的答案！我正在寻找一种方法来比较我的结果，也许我可以用一个联合国/监督的学习方法来比较，而不是DNN！例如，您可以在没有隐藏层的情况下放置一个DNN，因为它的行为类似于线性回归，那么您可以将每个有监督的学习代替它！由于没有真正的标签，我有问题的培训部分和估计DNN部分与监督

浏览 0提问于2018-08-31得票数 6

1回答

什么是后悔界限？

、

我搜索了这个术语，它出现在几篇文章中，但使用时没有解释。我唯一能找到的解释是在论文博士中：“后悔界限是在线学习算法分析的共同线索。后悔界限衡量在线算法相对于竞争预测机制的性能，称为竞争假设。” 读完这篇文章后，我仍然感到困惑(我没有读过论文的其余部分，因为这远远超出了我对这一领域的理解)。谁能解释一下吗？事先非常感谢！

浏览 0提问于2019-10-23得票数 2

2回答

$\pi$的蒙特卡罗估计

、、

当使用蒙特卡罗方法来估计$\pi$时，我们会将一个单位圆拟合成一个正方形，例如： ? 我对上面这个圆圈的描述非常困惑，它是从https://www.geeksforgeeks.org/estimating-value-pi-using-monte-carlo/中提取的： ? 既然0到-1是1，0到1是另一个1，那么正方形的面积不应该是$2^2$吗？圆的半径也是如此-不是$1$而不是$\frac{1}{2}$吗？

浏览 16提问于2020-12-31得票数 0

回答已采纳

2回答

信息提取结合强化学习，可行吗？

、、、

我想知道是否可以使用强化学习(因为它将越来越流行的谷歌DeepMind &AlphaGo的东西)来解析和提取文本信息。例如，它是否是结构化预测的竞争性方法，例如命名实体识别(NER)，即“城市”标记纽约的任务和“组织”词性标记(POS)的“纽约时报”，即将单词归类为行列式、名词等信息提取，即在文本中查找和标记某些目标信息，例如12/03号日期被赋予上下文含义为12月3日，是否有标签“终止日期”是用来完成这些任务的相关模型？我会天真地想到一个指针，它从头到尾阅读文本，并用标签标注每个字母。也许它会学到“单词”中的相邻字母都有相同的标签，等等，它能用这种方法来学习长期的依赖关系吗？

浏览 0提问于2016-03-12得票数 4

回答已采纳

1回答

Sutton和Barto的矩阵表示法

、、

在皮卡上。206在Barto和Sutton的强化学习中，关于标量积的结果有一种奇怪的说法： 📷 在我的解释中，A是二维向量的标量乘积的期望:哪个应该是标量，对吗？那么他们是如何得到dxd矩阵的呢？它是标量矩阵(与重复系数对角线，即这个标量积)的缩写吗？

浏览 0提问于2020-09-17得票数 1

回答已采纳

2回答

以CSV格式c#导出到XL时分隔字符串的逗号(，)

、、

我是C#的初学者，我正在以CSV格式将一些数据导出到XL。我的数据包含一个全名列，其中的数据类似于(John，Delores "Sutton")。当我将它导出到XL时，它将数据分成两列(或制表符)，如Tab1: John和Tab2: Delore "Sutton“(因为逗号(，))。我想要如果我使用以下代码 string F1 = base.GetColumnText(column, columnValue); //ex: John, Delores \"Sutton\"" string F2 = string.Format("\

浏览 13提问于2012-11-13得票数 2

回答已采纳

1回答

利用机器学习进行优化的项目

我想做一个网站项目，使用机器学习，以优化汽车吞吐量在一个城市。这将是一个卡通网格的点试图导航通过一个网格的街道与红灯在每个十字路口。但是，我还没有找到正确的资源来学习这种类型的ML优化。开始的想法是，每个时代都会给红绿灯的栅格设置相同的一组汽车，红绿灯猜出自己的绿/红频率，以最大限度地增加交通流量。因此，该模型将学习的衡量标准是通过灯光行驶的汽车数量(或者说所有的汽车都需要时间来清理城市，目前还不确定)。我做过谷歌ML速成班和“人工智能程序员指南”一书，但我还没有找到我正在寻找的合适类型的ML。我正在寻找一个学习资源来训练一个没有标签数据的模型，并提供一个优化的度量。

浏览 8提问于2022-08-23得票数 -2

回答已采纳

1回答

联想资源列表添加到/etc/apt/source.list.d/

、、、

看起来，联想的消息来源列表是在我没有任何互动的情况下添加到我的主机上的： /etc/apt/sources.list.d/oem-sutton.simon-banning-meta.list 内载： deb http://lenovo.archive.canonical.com/ focal sutton # deb-src http://lenovo.archive.canonical.com/ focal sutton deb http://lenovo.archive.canonical.com/ focal sutton.simon # deb-src http://lenovo.ar

浏览 0提问于2021-02-26得票数 1

1回答

主动学习推荐系统

、、、

我有数据，公司要求用户打分一堆问题，但有些项目可能是随机选择，而另一些是个性化的。用户在个性化问题上的得分平均较高。我有一个用户ID，问题ID，相应的分数由用户提问，以及问题是随机的还是个性化的。我想要建立一个推荐系统，其中包含了一个问题的特点是随机或个性化。我假设，如果要出现个性化项目，就必须对公司事先了解到的关于用户的随机问题进行一些学习。但是，在如何建立一个包含动态结构的推荐系统方面，我完全迷失了方向。我知道基本的建议包括矩阵分解或嵌入用户项矩阵，但我不知道如何适应学习。如有任何见解/参考相关文献/相关守则，我将不胜感激。

浏览 0提问于2020-05-06得票数 2

回答已采纳

2回答

四连排游戏强化学习的最佳算法

、

对于四连胜的游戏，强化学习的最佳算法是什么？我想构建一个四连排的游戏，它将使用RL算法之一来玩: Q-Learning，MinMax等。考虑到我使用的是Java，什么是最好的。

浏览 1提问于2012-01-08得票数 0

回答已采纳

1回答

一个问题:我是否有可能创造一个人工智能来学习玩我没有创造的游戏？

、、

主要是，我有一个问题，我在任何地方都找不到答案，关于一个人工智能机器学习游戏。我是否有可能创建一个AI，它可以学习一个我自己没有创建的游戏，没有任何源代码或API？我说的是一些简单的游戏，如chrome，snake等。有人告诉我，这是可以用图像处理的，但我还是不太确定。我指的是打开一个游戏，而不是一个下载的游戏，一个在google上可用的游戏，如上面提到的，运行我的代码，它将开始玩和学习这个游戏。只是创建一个算法来学习多个简单的2D谷歌游戏，这样的事情是否有可能与图像处理？

浏览 0提问于2019-09-20得票数 1

1回答

深度学习:是否有任何开源库可以与Hadoop流和MapReduce集成？

、

Google搜索推出了许多开源的深度学习框架。这是一个收集的列表 Google TensorFlow Theano mxnet keras Pylearn2 Blocks Lasagne chainer scikit-neuralnetwork theano-lights deepy idlf reinforce.js opendeep mxnet.js CGT Torch Caffe scikit-cuda cuda4py 用Hadoop流和MapReduce可以直接实现哪一个？优先考虑Python，也可以考虑使用其他语言。编辑：目前我主要对深度强化学习和LSTM感兴趣。

浏览 0提问于2016-01-21得票数 2

回答已采纳

1回答

如何使用tensorflow.Estimator进行强化学习

、

tensorflow.Estimator似乎倾向于监督学习，但似乎很难采用其他任务，即使只需要对模型或训练进行很小的更改。例如，在强化学习中，我需要提供一个不属于features的奖励值。

浏览 0提问于2018-03-14得票数 5

2回答

如何将汉字转换为AL16UTF16或WE8ISO8859P1？

、、

我在数据库中插入了一些汉字。(列名是名称，数据类型是VARCHAR2)我的项目名是:中文版测试，我需要按这个名称选择项目。但。在oracle数据库中插入了名为中文版测试的中文版测试(如果我理解正确的话，我的数据库有一个名为中文版测试的集合) 我想要将这个字符从数据库( or )转换为中文字符(中文版测试)，或者转换成一个相同的值来进行比较。我试试看： select DIRNAME from MILLENNIUM.PROJECTINFO where UPPER(convert(NAME, 'AL32UTF8', 'we8iso8859p1')) = UPPE

浏览 1提问于2018-02-21得票数 0

回答已采纳

2回答

为什么我们在非平稳强化学习中将最近的奖励加权得更高？

、、

Barto和Sutton的《强化学习导论》一书中提到了以下关于非平稳RL问题的内容： “我们经常遇到强化学习问题，这些问题实际上是非平稳的。在这种情况下，将最近的奖励比长期奖励更重地加权是有意义的。”(请参阅此处-) 我对此并不完全信服。例如，一个探索者代理的任务是找到迷宫的出口，实际上可能会失败，因为它在遥远的过去做出了错误的选择。你能解释一下为什么用简单的术语来衡量最近的奖励是有意义的吗？

浏览 1提问于2016-05-08得票数 2

1回答

使用机器学习来玩游戏集

、、

最近我试着制作一个可以玩游戏集的CNN：https://en.wikipedia.org/wiki/Set_(游戏)。然而，在使用我自己的卷积神经网络并尝试重新训练Inception-V3和AlexNet将三张卡片的图片分类为"set“和"notSet”之后，我很快了解到，CNN对于这项任务是没有用的。哪种机器学习算法对玩这个游戏是有用的？支持向量机有效吗？这里有指向我的最后一个问题的链接(有一些代码)和Github，其中包括数据集的示例图像。凯拉斯·瓦尔_acc在培训时保持不变(分配给所有图像的相同标签) https://github.com/Keyan-Rhm/ML

浏览 0提问于2018-02-23得票数 1

1回答

自我监督学习在ML中有哪些缺点？

、、、、

在过去的几年里，自我监督学习一直在上升。与其他学习方法(如监督学习和半监督学习)相比，它具有一定的优势，因为它不需要标记数据。我想知道自我监督学习是否有什么缺点，在什么方面半监督学习比它更好。

浏览 2提问于2021-09-08得票数 0

回答已采纳

3回答

使用强化学习解决分类问题

、、

我可以在分类中使用强化学习吗？比如人类活动识别？又是如何做到的？

浏览 2提问于2017-06-17得票数 11

2回答

多agent强化学习与多目标强化学习

、

所有人。多agent强化学习与多目标强化学习有什么区别？你能解释一下这两种方法的优缺点吗？我认为这两种方法都能达到一些目标..。

浏览 7提问于2022-09-21得票数 1

回答已采纳

1回答

如何将火狐搜索栏从google.com更改为google.com.tw

我安装Ubuntu11.04中文版。但是Firefox的标题和搜索栏也是英文的。如何改回中文版？对我来说最重要的是将搜索栏更改为google.com.tw。

浏览 0提问于2012-01-30得票数 2

回答已采纳

1回答

二值分类的强化算法

、、

我是机器学习的新手，但在过去的两天里，我读了很多关于强化学习的文章。我有一个获取项目列表的应用程序(例如从Upwork)。有一个审核者手动接受或拒绝一个项目(基于下面解释的一些参数)。如果一个项目被接受，我想发送一个项目提案，如果它被拒绝，我将忽略它。我希望用AI代替版主(还有其他原因)，所以我想知道我应该使用哪种增强算法。参数:下面列出了一些应该决定代理是否接受或拒绝项目的参数。假设我只想接受与web开发相关的项目(特别是后端/服务器端)，这里是参数应该如何影响代理。部门:如果项目是与IT部门相关的，那么应该有更多的机会被接受。类别:如果项目属于Web开发类别，则应该有更多被接受的机会

浏览 0提问于2018-08-16得票数 1

3回答

返回数组的php

、

我正在从另一个网站上抓取一个表，并设法抓取数据，并将其作为一个数组返回，这很好。我使用for循环遍历数组并打印数据和数据显示。“一排”有三项- 地址、波段、价格我试图将返回的数组分配给这些头，以便搜索地址并将其与当前地址匹配，但我似乎找不到合适的代码。 include ("simple_html_dom.php"); // Dump contents (without tags) from HTML $html = file_get_html('http://www.mycounciltax.org.uk/results?postcode=b757ep&se

浏览 2提问于2014-12-04得票数 0

回答已采纳

0回答

h5数据库检测工具网页中文版有吗？

、、

如: http://sh.usacgkx.cn:443/域名用什么工具能一键检测数据库的，中文版的，如:我只需这个域名用h5检测工具，就能进入数据库管理才能修改，中文版，我见过，请问在线中的有这样的工具吗？？

浏览 226提问于2020-02-24

2回答

神经网络中的Q-学习而不是学习

、、

我做了一个简单的Tron游戏在C++和一个MLP与一个隐藏层。我已经在这个神经网络中实现了Q-学习，然而，它并没有导致代理赢得更多的游戏时间(甚至在100万次游戏之后)。我将尝试用文字解释我做了什么，希望有人能发现一个错误，这可能导致这个问题。在每个州有四个可能的移动(北，东，南，西)和奖励在游戏结束(-1的损失，0的平局，1的胜利)。我初始化了4个MLP，每个可能的动作一个，有100个输入节点(整个游戏网格10x10)，其中每个点是1如果玩家本身在那里，0如果点是空的，-1如果对手访问过这个点。然后有50个隐藏节点和1个输出节点(我也尝试过一个有4个输出节点的网络，但这也没有帮助)。重量

浏览 2提问于2016-10-19得票数 2