Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Weka机器学习平台的迷你课程

Weka机器学习平台的迷你课程

作者头像
Bon
发布于 2018-02-08 02:21:01
发布于 2018-02-08 02:21:01
5.7K0
举报

14天内成为机器学习的专家

机器学习是个非常吸引人的研究领域,但是您怎么把它真正地应用到您自己的问题上呢?

您可能会对如何为机器学习准备数据,使用哪种算法或该如何选择模型而感到困惑。

那么,在这篇文章中,您接下来将会看到分为十四部分的教您使用Weka平台进行应用式机器学习的速成课程,在这些课程中没有任何数学公式或任何程序代码。

在您完成这个迷你课程后:

  • 您将知道如何通过数据集端到端地工作,并提供一组预测或高性能模型。
  • 您将了解Weka机器学习工作平台的使用方法,包括懂得如何探索算法和知道如何设计控制实验。
  • 您将知道如何为您的问题创建多个视图以及评估多个算法,并使用统计信息为您自己的预建模问题选择性能最佳的模型。

接下来,让我们开始吧。

提示您最好打印或收藏此页,以便您日后可以参考

Weka的应用机器学习迷你课程
Weka的应用机器学习迷你课程

Leon Yaakov提供的照片,保留部分权利。

这个迷你课程是面向哪些人的?

我们在开始前要先确认您是否来对了地方。下面的列表将提供一些关于本课程是为谁设计的基本原则。

如果您不完全符合这些要点,您不需要担心,你可能只需要在某方面或者其它方面学习一下以跟上。

您是一个懂一点机器学习的开发者。

这意味着您懂一点机器学习的基本知识,例如交叉验证,一些算法以及偏差-方差权衡。但这并不意味着你已经是一个机器学习方面的博士,只是您知道它们的位置或知道在哪里查找他们。

这个迷你课程不是关于机器学习的教科书。

它将把您从一个懂一点机器学习的开发者转变为一个可以使用Weka平台从头到尾地处理一个数据集,并提供一个预测模型或高性能模型的开发者。

迷你课程概览(您应当期待什么)

这个迷你课程分为14个部分。

每堂课长大约30分钟。您可能会提前完成某些课程,也可能您对其它课程会选择花更多时间来更深入学习。

您可以尽可能快或者尽可能慢地完成每个部分。强烈推荐的合适的时间表:两周内每天一课地完成这些课程。

接下来的14节课将涵盖的主题如下:

  • 第1课:下载并安装Weka
  • 第2课:加载标准机器学习数据集
  • 第3课:描述统计和可视化
  • 第4课:重调数据
  • 第5课:对数据进行功能选择
  • 第6课:Weka中的机器学习算法
  • 第7课:评估模型性能
  • 第8课:数据的性能基准
  • 第9课:分类算法
  • 第10课:回归算法
  • 第11课:集成算法
  • 第12课:比较算法的性能
  • 第13课:调整算法参数
  • 第14课:保存你的模型

这个过程将会是非常有趣的。

即使您将必须做一点工作,进行一点阅读,在Weka上修补模型。您想开始应用机器学习吗?

提示所有课程的答案都可以在这个博客上找到,请善用使用搜索功能

如有任何问题,请在下面的评论中发帖。

并在评论中分享您的结果。

坚持住,不要放弃!

第1课:下载并安装Weka

首先要做的就是在工作站上安装Weka软件。

Weka是免费的开源软件。它是用Java语言编写的,因此可以在任何支持Java环境的平台上运行,包括:

  • Windows
  • Mac OS X
  • Linux

您可以仅仅下载Weka或下载与Java捆绑的版本。

如果您的系统上尚未安装Java,则建议您下载并安装与Java捆绑的版本。

  1. 本课您的任务是访问Weka下载页面,下载并安装Weka到您的工作站上。

第2课:加载标准机器学习数据集

现在您已经安装好了Weka,接下来您需要加载数据。

Weka可以加载一种称作ARFF的本地格式数据。它是一种改进过的CSV格式,包含有关每个属性(列)的类型的附加信息。

您的Weka的安装目录包含着一个子目录,其中包含许多ARFF格式的标准机器学习数据集供您加载。

Weka也支持从原始CSV文件以及数据库加载数据,并根据需要将数据转换为ARFF。

在本课中,您将学习在Weka Explorer中加载标准数据集。

  1. 双击Weka(鸟形状的图标),这将启动Weka GUI Chooser。
  2. 点击“Explorer”按钮,这将打开Weka Explorer界面。
  3. 单击“Open file...”按钮并选择Weka安装目录下的数据/相关目录并加载diabetes.arff数据集。

请注意,如果您的Weka安装中没有数据/相关目录,或者您找不到它,请从Weka下载网页下载Weka的.zip版本,解压缩并访问数据/相关目录。

您刚刚在Weka中加载了您第一个数据集。

试试加载数据/目录中的一些其他数据集。

尝试从UCI Machine Learning存储库下载原始CSV文件并将其加载到Weka中。

第3课:描述统计和可视化

一旦您可以加载Weka的数据,重要的是看它的属性。

Weka可以让您查看从您的数据计算出来的描述性统计信息。它还提供可视化工具。

在本课中,您将使用Weka来了解有关数据的更多信息。

  1. 打开Weka GUI Chooser。
  2. 打开Weka Explorer。
  3. 加载data/diabetes.arff数据集。
  4. 点击“Attributes(属性)”列表中的不同Attributes(属性),并在“Selected attribute(选定的属性)”窗格中查看详细信息。
  5. 点击“Visualize All(全部可视化)”按钮查看所有属性分布。
  6. 单击“Visualize(可视化)”选项卡,查看所有属性的散点图矩阵。

在“Preprocess(预处理)”选项卡中查看不同属性的详细信息,然后在“Visualize(可视化)”选项卡中调整散点图矩阵。

第4课:重调数据

原始数据通常不适合拿来建模。

通常情况下,您可以通过重调属性来提高机器学习模型的性能。

在本课中,您将学习如何使用Weka中的数据过滤器来重调数据。您将可以把数据集的所有属性标准化,并将它们重新标定为一致的0到1范围。

  1. 打开Weka GUI Chooser,然后打开Weka Explorer。
  2. 加载data/diabetes.arff数据集。
  3. 点击“Filter(筛选)”窗格中的“Choose(选择)”按钮,然后选择“unsupervised.attribute.Normalize(无监督.属性.标准化)”。
  4. 点击“Apply(应用)”按钮。

在“Selected attribute”窗格中查看每个属性的详细信息,并记下对比例的更改。

使用其他数据过滤器(如Standardize filter)进行探索。

通过点击加载过滤器的名称并更改它的参数来探索配置过滤器。

通过单击“Preprocess”选项卡上的“Save…(保存...)”按钮,测试保存修改的数据集以备后用。

第5课:对数据进行功能选择

并不是数据集中的所有属性都与您想要预测的属性可能相关。

您可以使用功能选择来标识和输出变量最相关的那些属性。

在本课中,您将可以熟练地使用不同的特征选择方法。

  1. 打开Weka GUI Chooser,然后打开Weka Explorer。
  2. 加载data/diabetes.arff数据集。
  3. 点击“Select attributes”标签。
  4. 单击“Attribute Evaluator(属性评估程序)”窗格中的“Choose(选择)”按钮,然后选择“CorrelationAttributeEval”。
    1. 您将看到一个对话框,要求您更改为使用此功能选择方法时所需的“Ranker(排序器)”搜索方法。点击“Yes”按钮。

5. 点击“Start”按钮运行特征选择方法。

查看“Attribute selection output(属性选择输出)”窗格中的输出,并记下每个属性的相关性分数,数字越大表示相关性越强。

探索其他特征选择方法,如使用information gain (entropy)。

在“Process”选项卡和“Remove”按钮中探索选择要从数据集中删除的功能。

第6课:Weka中的机器学习算法

Weka平台的一个主要优点是它提供了大量的机器学习算法。

你需要了解机器学习算法。

在本课中,您将深入了解Weka中的机器学习算法。

  1. 打开Weka GUI Chooser,然后打开Weka Explorer。
  2. 加载data/diabetes.arff数据集。
  3. 点击“Classify(分类)”标签。
  4. 点击“Choose(选择)”按钮,注意算法的不同分组。
  5. 单击所选算法的名称进行配置。
  6. 单击配置窗口上的“More”按钮以了解更多关于实现的信息。
  7. 单击配置窗口上的“Capabilities(功能)”按钮以了解更多关于如何使用它的信息。
  8. 注意窗口上的“Open”和“Save”按钮,可以保存和加载不同的配置。
  9. 将鼠标悬停在配置参数上,并留意工具提示帮助。
  10. 点击“Start”按钮运行算法。

浏览可用的算法。请注意,无论您的数据集是分类(预测类别)还是回归(预测实际值)类型问题,有些算法都是不可用的。

探索和了解更多关于Weka中可用的各种算法。

请您自信地选择和配置算法。

第7课:评估模型性能

现在您已经知道如何选择和配置不同的算法,您需要知道如何评估算法的性能。

在本课中,您将学习关于评估Weka算法性能的不同方法。

  1. 打开Weka GUI Chooser,然后打开Weka Explorer。
  2. 加载data/diabetes.arff数据集。
  3. 点击“Classify”标签。

Test options(测试选项)”窗格列出了可用于评估算法性能的各种不同方法。

  • 标准式/0-1式是10-折“交叉验证(Cross Validation)”。这是默认选择的。对于一个小的数据集,折叠的数量可以从10调整到5甚至3。
  • 如果您的数据集非常大,并且想要快速评估算法,则可以使用“Percentage split(百分比分割)”选项。默认情况下,此选项将训练66%的数据集,并使用剩余的34%来评估模型的性能。
  • 或者,如果您有单独的包含验证数据集的文件,您则可以通过选择“Supplied test set”选项来评估您的模型。您的模型将在整个训练数据集上进行训练,并在单独的数据集上进行评估。
  • 最后,您可以在整个训练数据集上评估模型的性能。相比起预测性模型,如果您对描述性模型更感兴趣,这将非常有用。

点击“Start”按钮,将会使用您选择的测试选项运行给定的算法。

尝试不同的测试选项。

通过单击“More options ...(更多选项...)”按钮,进一步优化配置中的测试选项。

第8课:数据的性能基准

当您开始在数据集上评估多个机器学习算法时,那么您也许需要一个比较基准。

基准结果为您提供了一个参考点,以了解给定算法的结果是好还是差,以及好多少和差多少。

在本课中,您将了解可用作分类和回归算法基准的ZeroR算法。

  1. 打开Weka GUI Chooser,然后打开Weka Explorer。
  2. 加载data/diabetes.arff数据集。
  3. 点击“Classify”标签。ZeroR算法是默认选择的。
  4. 点击“Start”按钮。

这将在您的数据集上使用10-折交叉验证(10-fold cross validation)来运行ZeroR算法。

ZeroR算法也称为零规则(Zero Rule)算法,可用于计算数据集上所有算法的性能基准。这是“最差”的结果。因此,任何能显示更好性能的算法都将对您的问题产生作用。

在分类算法中,ZeroR算法将始终预测最丰富的类别。如果数据集的类数相等,则会预测第一个类别的值。

在糖尿病数据集中,这导致65%的分类准确性。(diabetes:糖尿病)

对于回归问题,ZeroR算法将始终预测平均输出值。

在一系列不同的数据集上使用ZeroR算法进行实验。您最好在别人找到基准之前先运行这个ZeroR算法。

第9课:分类算法之旅

Weka提供了大量的分类算法。

在本课中,您将会发现可以在分类问题上使用的5种最重要的分类算法。

  1. 打开Weka GUI Chooser,然后打开Weka Explorer。
  2. 加载data/diabetes.arff数据集。
  3. 点击“Classify”标签。
  4. 点击“Choose”按钮。

这五种可用于分类的最重要算法包括:

  • Logistic回归(functions.Logistic)
  • 朴素贝叶斯(bayes.NaiveBayes)
  • k-近邻(lazy.IBk)
  • 分类和回归树(trees.REPTree)
  • 支持向量机(functions.SMO)

尝试一下这些顶级的算法。

在不同的分类数据集上进行测试,比如那些有两个类别和多个类别的数据集。

第10课:回归算法之旅

分类算法是Weka的专长,但是其中的许多算法都可以用于回归。

回归是用来预测一个真实的有价值的结果(如一美元的价值),而不同于用来预测一个类别(如“狗”或“猫”)。

在本课中,您将发现可以用于回归问题的5个最佳的回归算法。

您可以从Weka数据集下载一套标准回归机器学习数据集。下载回归问题档中的datasets-numeric.jar,标题为:

  • “A jar file containing 37 regression problems, obtained from various sources(从各种来源获得的包含37个回归问题的jar文件)”

使用你最喜欢的解压缩程序来解压.jar文件,你将会得到一个名为numeric/ 的新目录,包含你可以研究的37个回归问题。

  1. 打开Weka GUI Chooser,然后打开Weka Explorer。
  2. 加载data/housing.arff数据集。
  3. 点击“Classify”标签。
  4. 点击“Choose”按钮。

而这五种可用于回归的顶级算法包括:

  • 线性回归(functions.LinearRegression)。
  • 支持向量回归(functions.SMOReg)。
  • k-近邻(lazy.IBk)。
  • 分类和回归树(trees.REPTree)。
  • 人工神经网络(functions.MultilayerPerceptron)。

尝试一下这些顶级的算法。

在不同的回归数据集上进行测试。

第11课:集成算法之旅

Weka非常容易使用,这可能是和其他平台相比起来的最大优势。

除此之外,Weka还提供了大量的集成机器学习算法,这可能是Weka与其他平台相比的第二大优势。

使用您的时间去熟悉Weka的集成算法是值得的。在本课中,您将发现您可以使用的5种顶级集成机器学习算法。

  1. 打开Weka GUI Chooser,然后打开Weka Explorer。
  2. 加载data/diabetes.arff数据集。
  3. 点击“Classify”标签。
  4. 点击“Choose”按钮。

以下是五种您可以使用的顶级集成算法包括:

  • 套袋(meta.Bagging)。
  • 随机森林(trees.RandomForest)。
  • 提升(meta.AdaBoost)。
  • 投票(meta.Voting)。
  • 堆叠(meta.Stacking)。

尝试一下这些顶级算法。

这些集成方法大部分都可以让您自主选择子模型。您可以使用子模型的不同组合进行实验。以有差异的方式进行并产生不同预测结果的技术组合往往有更好的性能。

试用一下不同的分类和回归数据集。

第12课:比较算法的性能

Weka提供了一个专门用于比较算法的称为Weka实验环境(Weka Experiment Environment)的独特工具。

Weka实验环境允许您使用机器学习算法设计和执行受控实验,然后分析结果。

在本课中,您将在Weka中设计您的第一个实验,并了解如何使用Weka实验环境来比较机器学习算法的性能。

  1. 打开“Weka GUI Chooser”。
  2. 点击“Experimenter”按钮打开“Weka实验环境”。
  3. 点击“New”按钮。
  4. 点击“Datasets(数据集)”窗格中的“Add new…”按钮并选择“data/diabetes.arff”。
  5. 单击“Algorithms(算法)”窗格中的“Add new...”按钮并添加“ZeroR”和“IBk”。
  6. 点击“Run”标签,然后点击“Start”按钮。
  7. 点击“Analyse”选项卡,然后点击“Experiment”按钮,然后点击“Perform test”按钮。

您只是设计、执行并分析了Weka中第一个受控实验的结果。

您将ZeroR算法与缺省配置的IBk算法在糖尿病数据集上进行了比较。

结果表明,IBK具有比Zero更高的分类准确性,并且这种差异具有统计显着性(结果旁边的小“v”字符)。

展开实验并添加更多算法并重新运行实验。

更改“Analyse”选项卡上的“Test base(测试基础)”以更改将哪组结果作为与其他结果比较的参考。

第13课:调整算法参数

为了充分利用机器学习算法,您必须调整方法的参数来解决您的问题。

您不知道如何最好地做到这一点,所以您必须尝试很多不同的参数。

Weka实验环境允许您设计受控实验来比较不同算法参数的结果以及差异是否具有统计显着性。

在本课中,您将要设计一个实验来比较k-近邻算法的参数。

  1. 打开“Weka GUI Chooser”。
  2. 点击“Experimenter”按钮打开“Weka实验环境”
  3. 点击“New”按钮。
  4. 点击“Datasets”窗格中的“Add new...”按钮并选择“data/diabetes.arff”。
  5. 单击“Algorithms”窗格中的“Add new...”按钮,并添加3个“IBk”算法。
  6. 单击列表中的每个IBk算法,然后单击“Edit selected ...”按钮,将3种不同算法中的每种算法的“KNN”更改为1,3,5。
  7. 点击“Run”标签,然后点击“Start”按钮。
  8. 点击“Analyse”选项卡,然后点击“Experiment”按钮,然后点击“Perform test”按钮。

您只是设计、执行了实验和分析了对照实验的结果,从而比较算法参数。

我们可以看到,较大的K值的结果比默认值1好,而个中差别是显着的。

探索尝试改变KNN的其他配置属性,并建立起开发实验来调整机器学习算法的信心。

第十四课:保存你的模型

一旦你找到了性能最好的模型,您需要确定保存它以备后用。

在最后一课中,您将了解如何训练出最终模型并将其保存到文件中供以后使用。

  1. 打开Weka GUI Chooser,然后打开Weka Explorer。
  2. 加载data/diabetes.arff数据集。
  3. 点击“Classify”标签。
  4. 将“Test options”更改为“Use training set(使用训练集)”并单击“Start”按钮。
  5. 右键单击“Result list(结果列表)”中的结果,然后单击“Save model(保存模型)”,并输入文件名,如“糖尿病final”。

您刚刚在整个训练数据集上训练出最终模型,并将生成的模型保存到文件中。

您可以将此模型加载到Weka中,并使用它来预测新数据。

  1. 右键点击“Result list(结果列表)”,点击“Load model(加载模型)”,选择你的模型文件(“糖尿病final.model”)。
  2. 将“Test options(测试选项)”更改为“Supplied test set(提供的测试集)”,然后选择data/diabetes.arff(这应当是您没有预测的新文件)
  3. 点击“Test options(测试选项)”中的“More options(更多选项)”,将“Output predictions(输出预测)”更改为“Plain Text(纯文本)”
  4. 右键单击加载的模型,然后选择“Re-evaluate model on current test set(在当前测试集上重新评估模型)”。

新的预测现在将在“Classifier output(分类器输出)”窗格中列出。

尝试保存不同的模型,并预测全新的数据集。

机器学习的Weka迷你课程的回顾

恭喜你,你做到了。做得好!

花点时间回头看看你到底走了多远

  • 尽管可能是第一次,但您已经发现了如何启动和使用Weka Explorer和Weka实验环境。
  • 您加载数据、分析数据并使用数据过滤器和特征选择来准备建模数据。
  • 您发现了一套机器学习算法,以及如何设计控制实验来评估其性能。

不要轻视这一点,你在很短的时间内走了很长的一段路。但这只是Weka应用机器学习之旅的开始。请继续练习和发展你的技能。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Weka机器学习使用介绍(数据+算法+实战)
Weka是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis)的英文字首缩写,新西兰怀卡托大学用Java开发的数据挖掘著名开源软件。功能有数据处理、特征选择、分类、回归、可视化等,支持多种数据文件格式,如arff、xrff、csv等,主流的数据格式是csv和arff。
Minerva
2020/07/01
15.1K2
Weka机器学习使用介绍(数据+算法+实战)
数据挖掘系列(4)使用weka做关联规则挖掘
前面几篇介绍了关联规则的一些基本概念和两个基本算法,但实际在商业应用中,写算法反而比较少,理解数据,把握数据,利用工具才是重要的,前面的基础篇是对算法的理解,这篇将介绍开源利用数据挖掘工具weka进行管理规则挖掘。 weka数据集格式arff arff标准数据集简介   weka的数据文件后缀为arff(Attribute-Relation File Format,即属性关系文件格式),arff文件分为注释、关系名、属性名、数据域几大部分,注释用百分号开头%,关系名用@relation申明,属性用@
小莹莹
2018/04/23
2.9K2
数据挖掘系列(4)使用weka做关联规则挖掘
WEKA的使用指南
“借着年终总结,回顾个好用的数据挖掘工具。” WEKA是一个貌似比较小众的数据挖掘工具,在应用的普遍性上远远不如R、Python等软件。我在机缘巧合之下,从一门课程里学到这个工具,其轻便性、用户友好性
企鹅号小编
2018/02/24
2.2K0
WEKA的使用指南
5种无需数学背景也可理解机器学习算法的技巧
在一种自顶向下的研究机器学习的方法中,理论应立足于何处?
Bon
2018/02/06
1.2K1
5种无需数学背景也可理解机器学习算法的技巧
如何在Weka中加载CSV机器学习数据
原文地址:https://machinelearningmastery.com/load-csv-machine-learning-data-weka/
花落花飞去
2018/02/08
8.8K0
如何在Weka中加载CSV机器学习数据
Azure 机器学习 - 使用无代码 AutoML 训练分类模型
Azure 机器学习工作区是云中的基础资源,用于试验、训练和部署机器学习模型。 它将 Azure 订阅和资源组关联到服务中一个易于使用的对象。
TechLead
2023/11/08
3210
Azure 机器学习 - 使用无代码 AutoML 训练分类模型
【盘点】掌握机器学习的5条必由之路(附学习资料推荐)
【新智元导读】作者在本文提出一种5步入门并应用机器学习的方法。它不是传统的方法。传统的机器学习方法提倡从下往上学,先从理论和数学开始,然后是算法实现,最后让你去解决现实世界的问题。 作者提倡的掌握机器
新智元
2018/03/26
7480
【盘点】掌握机器学习的5条必由之路(附学习资料推荐)
3 机器学习入门——决策树之天气预报、鸢尾花
前面我们简单学习了线性回归、逻辑回归,不知道有没有做一个总结,那就是什么时候该用逻辑回归?
天涯泪小武
2019/01/17
1.6K0
25个Java机器学习工具&库
本列表总结了25个Java机器学习工具&库: 1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。Weka包括一系列的工具,如数据预处理、分类、回归、聚类、关联规则以及可视化。 2.Massive Online Analysis(MOA)是一个面向数据流挖掘的流行开源框架,有着非常活跃的成长社区。它包括一系列的机器学习算法(分类、回归、聚类、异常检测、概念漂移检测和推荐系统)和评估工具。关联了WEKA项目,MOA也是用Java编写的,其扩展性更强。
CSDN技术头条
2018/02/11
1.5K0
基于TensorFlow的机器学习速成课程25讲视频全集(23-25讲)
【导读】前些日子,大家都知道,Google 上线了基于 TensorFlow 的机器学习速成课程,它包含 40 多项练习、25 节课程以及 15 个小时的紧凑学习内容。 基于TensorFlow的机
WZEARW
2018/06/05
4080
资源 | Intel发布AI免费系列课程3部曲:机器学习基础、深度学习基础以及TensorFlow基础
翻译 | AI科技大本营 校对 | 成龙 编辑 | 明明 Intel于近期发布了三门AI系列的免费课程,分别是关于机器学习基础、深度学习基础、TensorFlow基础三个方面。据悉,该系列免费课程主要针对研究生阶段的学生,营长将三门课程概要及链接整理如下。 ▌课程1:机器学习基础 概要 本课程介绍了Intel架构中的机器学习基础知识。涵盖的主题包括: 回顾了机器学习可以解决的问题类型 理解机器学习算法中的各组成模块 学习在机器学习中构建模型的基础知识 探索关键算法 在本课程结束时,学生将了解以下内容
AI科技大本营
2018/04/26
8170
资源 | Intel发布AI免费系列课程3部曲:机器学习基础、深度学习基础以及TensorFlow基础
从机器学习开始的4个步骤:初学者开始和实践的自上而下的策略
在这篇文章中,我向你展示了采用自顶向下的策略来入门应用机器学习的方法。我可以看到这个方法分为四个步骤。你应该对这些步骤他们感到熟悉,因为它可能跟你用来学习编程的自上而下的方法相同,亦即,掌握基础知识,大量练习,然后在你找到感觉、进入状态后再深入细节。
花落花飞去
2018/02/05
1.8K0
机器学习入门——使用python进行监督学习
什么是监督学习? 在监督学习中,我们首先要导入包含训练特征和目标特征的数据集。监督式学习算法会学习训练样本与其相关的目标变量之间的关系,并应用学到的关系对全新输入(无目标特征)进行分类。 为了说明如何
AiTechYun
2018/03/02
1.5K0
机器学习入门——使用python进行监督学习
数据太大爆内存怎么办?七条解决思路 | 机器学习开发手册
Jason Brownlee 在研究、应用机器学习算法的经历中,相信大伙儿经常遇到数据集太大、内存不够用的情况。 这引出一系列问题: 怎么加载十几、几十 GB 的数据文件? 运行数据集的时候算法崩溃了,怎么办怎么处理内存不足导致的错误? 本文将讨论一些常用的解决办法,供大家参考。 处理大型 ML 数据文件的七种思路 1. 分配更多内存 有的机器学习工具/库有默认内存设置,比如 Weka。这便是一个限制因素。 你需要检查一下:是否能重新设置该工具/库,分配更多内存。 对于 Weka,你可以在打开
AI研习社
2018/03/19
3.6K0
数据太大爆内存怎么办?七条解决思路 | 机器学习开发手册
如何透彻的掌握一门机器学习算法
机器学习算法都是一个个复杂的体系,需要通过研究来理解。学习算法的静态描述是一个好的开始,但是这并不足以使我们理解算法的行为,我们需要在动态中来理解算法。 机器学习算法的运行实验,会使你对于不同类型问题得出的实验结论,并对实验结论与算法参数两者的因果关系有一个直观认识。 在这篇文章中,你将会知道怎么研究学习一个机器学习算法。你将会学到5个简单步骤,你可以用来设计和完成你的第一个机器学习算法实验 你会发现机器学习实验不光是学者们的专利,你也可以;你也会知道实验是通往精通的必经之路,因为你可以从经验中学到因果关系
机器学习AI算法工程
2018/03/09
6150
【机器学习】吴恩达机器学习Deeplearning.ai
机器学习已经强大到可以独立成为人工智能的一个子领域。 可以通过对机器编程实现比如执行网络搜索、理解人类语言、通过x光诊断疾病,或制造自动驾驶汽车。
天天Lotay
2023/04/04
6310
【机器学习】吴恩达机器学习Deeplearning.ai
bigML中提升树模型的6个步骤
BigML将提升树模型(Boosted Trees)带入我们日益增长的监督式学习技术套件中。Boosting是一个变体,旨在减少偏见,可能会导致比Bagging或随机决策森林更好的表现。
用户1652466
2018/05/30
2.3K0
数据报告分享|WEKA贝叶斯网络挖掘学校在校人数影响因素数据分类模型
本文着眼普通高等学校在校学生人数,提出了不同种类学校的在校人数可能存在的影响关系从而探究教育现状的因素,建立分类模型,探求这几个因素间的数量关系(点击文末“阅读原文”获取完整代码数据)。
拓端
2023/08/31
2260
数据报告分享|WEKA贝叶斯网络挖掘学校在校人数影响因素数据分类模型
【机器学习】机器学习算法预览
在这篇文章中,我要带大家预览一下机器学习中最热门的算法。预览主要的机器学习算法可在某种程度上给你这样的一种感觉,让你知道什么样的方法是可靠的。 这里有很多算法都是可靠的,这也许会让你感觉吃不消,看到这么多算法的名字的时候,你也许只能感觉到它叫什么而且它出自哪个地方。 在这篇文章中,我会提供2个方法来帮助你思考和分类这些算法,而这些你也许能用得上。 我们首先可以按照算法的类型进行分组。 我们可以根据函数类型的相似度进行分组(就像对很多小动物进行分组那样)。 这些方法都是有用的,但是在这篇文
陆勤_数据人网
2018/02/27
9850
【机器学习】机器学习算法预览
Azure 机器学习 - 无代码自动机器学习的预测需求
本教程将在 Azure 机器学习工作室中创建自动化 ML 试验运行。机器学习工作室是一个整合的 Web 界面,其中包含的机器学习工具可让各种技能水平的数据科学实践者执行数据科学方案。 Internet Explorer 浏览器不支持此工作室。
TechLead
2023/11/08
3300
Azure 机器学习 - 无代码自动机器学习的预测需求
推荐阅读
相关推荐
Weka机器学习使用介绍(数据+算法+实战)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档