Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >来!一起捋一捋机器学习分类算法

来!一起捋一捋机器学习分类算法

作者头像
大数据文摘
发布于 2019-08-13 09:00:57
发布于 2019-08-13 09:00:57
4910
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘出品

来源:builtin

编译:邢畅、刘兆娜、李雷、钱天培

说起分类算法,相信学过机器学习的同学都能侃上一二。

可是,你能够如数家珍地说出所有常用的分类算法,以及他们的特征、优缺点吗?比如说,你可以快速地回答下面的问题么:

  • KNN算法的优缺点是什么?
  • Naive Bayes算法的基本假设是什么?
  • entropy loss是如何定义的?
  • 最后,分类算法调参常用的图像又有哪些?

答不上来?别怕!一起来通过这篇文章回顾一下机器学习分类算法吧(本文适合已有机器学习分类算法基础的同学)。

机器学习是一种能从数据中学习的计算机编程科学以及艺术,就像下面这句话说得一样。

机器学习是使计算机无需显式编程就能学习的研究领域。 ——阿瑟·塞缪尔,1959年

不过还有一个更好的定义:

“如果一个程序在使用既有的经验(E)执行某类任务(T)的过程中被认为是“具备学习能力的”,那么它一定需要展现出:利用现有的经验(E),不断改善其完成既定任务(T)的性能(P)的特性。” ——Tom Mitchell, 1997

例如,你的垃圾邮件过滤器是一个机器学习程序,通过学习用户标记好的垃圾邮件和常规非垃圾邮件示例,它可以学会标记垃圾邮件。系统用于学习的示例称为训练集。在此案例中,任务(T)是标记新邮件是否为垃圾邮件,经验(E)是训练数据,性能度量(P) 需要定义。例如,你可以定义正确分类的电子邮件的比例为P。这种特殊的性能度量称为准确度,这是一种有监督的学习方法,常被用于分类任务。

机器学习入门指南:

https://builtin.com/data-science/introduction-to-machine-learning

监督学习

在监督学习中,算法从有标记数据中学习。在理解数据之后,该算法通过将模式与未标记的新数据关联来确定应该给新数据赋哪种标签。

监督学习可以分为两类:分类回归

分类问题预测数据所属的类别;

分类的例子包括垃圾邮件检测、客户流失预测、情感分析、犬种检测等。

回归问题根据先前观察到的数据预测数值;

回归的例子包括房价预测、股价预测、身高-体重预测等。

机器学习新手的十大算法之旅:

https://builtin.com/data-science/tour-top-10-algorithms-machine-learning-newbies

分类问题

分类是一种基于一个或多个自变量确定因变量所属类别的技术。

分类用于预测离散响应

逻辑回归

逻辑回归类似于线性回归,适用于因变量不是一个数值字的情况 (例如,一个“是/否”的响应)。它虽然被称为回归,但却是基于根据回归的分类,将因变量分为两类。

如上所述,逻辑回归用于预测二分类的输出。例如,如果信用卡公司构建一个模型来决定是否通过向客户的发行信用卡申请,它将预测客户的信用卡是否会“违约”。

首先对变量之间的关系进行线性回归以构建模型,分类的阈值假设为0.5。

然后将Logistic函数应用于回归分析,得到两类的概率。

该函数给出了事件发生和不发生概率的对数。最后,根据这两类中较高的概率对变量进行分类。

K-近邻算法(K-NN)

K-NN算法是一种最简单的分类算法,通过识别被分成若干类的数据点,以预测新样本点的分类。K-NN是一种非参数的算法,是“懒惰学习”的著名代表,它根据相似性(如,距离函数)对新数据进行分类。

K-NN能很好地处理少量输入变量(p)的情况,但当输入量非常大时就会出现问题。

支持向量机(SVM)

支持向量机既可用于回归也可用于分类。它基于定义决策边界的决策平面。决策平面(超平面)可将一组属于不同类的对象分离开。

在支持向量的帮助下,SVM通过寻找超平面进行分类,并使两个类之间的边界距离最大化。

SVM中超平面的学习是通过将问题转化为使用一些某种线性代数转换问题来完成的。(上图的例子是一个线性核,它在每个变量之间具有线性可分性)。

对于高维数据,使用可使用其他核函数,但高维数据不容易进行分类。具体方法将在下一节中阐述。

核支持向量机

核支持向量机将核函数引入到SVM算法中,并将其转换为所需的形式,将数据映射到可分的高维空间。

核函数的类型包括:

  • 前文讨论的就是线性SVM
  • 多项式核中需要指定多项式的次数。它允许在输入空间中使用曲线进行分割。
  • 径向基核(radial basis function, RBF)可用于非线性可分变量。使用平方欧几里德距离,参数的典型值会导致过度拟合。sklearn中默认使用RBF。
  • 类似于与逻辑回归类似,sigmoid核用于二分类问题。

径向基核(RBF:Radial Basis Function )

RBF核支持向量机的决策区域实际上也是一个线性决策区域。RBF核支持向量机的实际作用是构造特征的非线性组合,将样本映射到高维特征空间,再利用线性决策边界分离类。

因此,可以得出经验是:对线性问题使用线性支持向量机,对非线性问题使用非线性核函数,如RBF核函数。

朴素贝叶斯

朴素贝叶斯分类器建立在贝叶斯定理的基础上,基于特征之间互相独立的假设(假定类中存在一个与任何其他特征无关的特征)。即使这些特征相互依赖,或者依赖于其他特征的存在,朴素贝叶斯算法都认为这些特征都是独立的。这样的假设过于理想,朴素贝叶斯因此而得名。

在朴素贝叶斯的基础上,高斯朴素贝叶斯根据二项(正态)分布对数据进行分类。

P(class|data) 表示给定特征(属性)后数据属于某类(目标)的后验概率。给定数据,其属于各类的概率大小就是我们要计算的值。

P(class)表示某类的先验概率。

P(data|class)表示似然,是指定类别时特征出现的概率。

P(data)表示特征或边际似然的先验概率。

步骤

1、计算先验概率

P(class) = 类中数据点的数量/观测值的总数量

P(yellow) = 10/17

P(green) = 7/17

2、计算边际似然

P(data) = 与观测值相似的数据点的数量/观测值的总数量

P(?) = 4/17

该值用于检查各个概率。

3、计算似然

P(data/class) = 类中与观测值相似的数量/类中点的总数量

P(?/yellow) = 1/7

P(?/green) = 3/10

4、计算各类的后验概率

5、分类

某一点归于后验概率高的类别,因为从上可知其属于绿色类的概率是75%根据其75%的概率这个点属于绿色类。

多项式、伯努利朴素贝叶斯是计算概率的其他模型。朴素贝叶斯模型易于构建,不需要复杂的参数迭代估计,这使得它对非常大的数据集特别有用。

决策树分类

决策树以树状结构构建分类或回归模型。它通过将数据集不断拆分为更小的子集来使决策树不断生长。最终长成具有决策节点(包括根节点和内部节点)和叶节点的树。最初决策树算法它采用采用Iterative Dichotomiser 3(ID3)算法来确定分裂节点的顺序。

信息熵和信息增益用于被用来构建决策树。

信息熵

信息熵是衡量元素无序状态程度的一个指标,即衡量信息的不纯度。

信息熵是衡量元素的无序状态的程度的一个指标,或者说,衡量信息的不纯度。

直观上说地理解,信息熵表示一个事件的确定性程度。信息熵度量样本的同一性,如果样本全部属于同一类,则信息熵为0;如果样本等分成不同的类别,则信息熵为1。

信息增益

信息增益测量独立属性间信息熵的变化。它试图估计每个属性本身包含的信息,构造决策树就是要找到具有最高信息增益的属性(即纯度最高的分支)。

信息增益测量独立属性间的信息熵的变化。它试图估计每个属性本身包含的信息,构造决策树就是要找到具有最高信息增益的属性(即纯度最高的分支)。

其中Gain((T,X))是特征X的信息增益。Entropy(T)是整个集合的信息熵,第二项Entropy(T,X)是特征X的信息熵。

采用信息熵进行节点选择时,通过对该节点各个属性信息增益进行排序,选择具有最高信息增益的属性作为划分节点,过滤掉其他属性。

决策树模型存在的一个问题是容易过拟合。因为在其决策树构建过程中试图通过生成长一棵完整的树来拟合训练集,因此却降低了测试集的准确性。

通过剪枝技术可以减少小决策树的过拟合问题。

分类的集成算法

集成算法是一个模型组。从技术上说,集成算法是单独训练几个有监督模型,并将训练好的模型以不同的方式进行融合,从而达到最终的得预测结果。集成后的模型比其中任何一个单独的模型都有更高的预测能力。

随机森林分类器

随机森林分类器是一种基于装袋(bagging)的集成算法,即自举助聚合法(bootstrap aggregation)。集成算法结合了多个相同或不同类型的算法来对对象进行分类(例如,SVM的集成,基于朴素贝叶斯的集成或基于决策树的集成)。

集成的基本思想是算法的组合提升了最终的结果。

深度太大的决策树容易受过拟合的影响。但是随机森林通过在随机子集上构建决策树防止过拟合,主要原因是它会对所有树的结果进行投票的结果是所有树的分类结果的投票,从而消除了单棵树的偏差。

随机森林在决策树生增长的同时为模型增加了额外的随机性。它在分割节点时,不是搜索全部样本最重要的特征,而是在随机特征子集中搜索最佳特征。这种方式使得决策树具有多样性,从而能够得到更好的模型。

梯度提升分类器

梯度提升分类器是一种提升集成算法。提升(boosting)算法是为了减少偏差而对弱分类器的而进行的一种集成方法。与装袋(bagging)方法构建预测结果池不同,提升算法是一种分类器的串行方法,它把每个输出作为下一个分类器的输入。通常,在装袋算法中,每棵树在原始数据集的子集上并行训练,并用所有树预测结果的均值作为模型最终的预测结果;梯度提升模型,采用串行方式而非并行模式获得预测结果。每棵决策树预测前一棵决策树的误差,因而使误差获得提升。

梯度提升树的工作流程

  • 使用浅层决策树初始化预测结果。
  • 计算残差值(实际预测值)。
  • 构建另一棵浅层决策树,将上一棵树的残差作为输入进行预测。
  • 用新预测值和学习率的乘积作为最新预测结果,更新原有预测结果。
  • 重复步骤2-4,进行一定次数的迭代(迭代的次数即为构建的决策树的个数)。

如果想了解更多关于梯度提升分类器的知识,可参考:

https://medium.com/mlreview/gradient-boosting-from-scratch-1e317ae4587d%20/t%20_blank

分类器的性能

混淆矩阵

混淆矩阵是一张表,这张表通过对比已知分类结果的测试数据的预测值和真实值表来描述衡量分类器的性能。在二分类的情况下,混淆矩阵是展示预测值和真实值四种不同结果组合的表。

多分类问题的混淆矩阵可以帮助你确认错误模式。

对于二元分类器:

假正例&假负例

假正例和假负例用来衡量模型预测的分类效果。假正例是指模型错误地将负例预测为正例。假负例是指模型错误地将正例预测为负例。主对角线的值越大(主对角线为真正例和真负例),模型就越好;副对角线给出模型的最差预测结果。

假正例

下面给出一个假正例的例子。比如:模型将一封邮件分类为垃圾邮件(正例),但这封邮件实际并不是垃圾邮件。这就像一个警示,错误如果能被修正就更好,但是与假负例相比,它并不是一个严重的问题。

作者注:个人观点,这个例子举的不太好,对垃圾邮件来说,相比于错误地将垃圾邮件分类为正常邮件(假负例),将正常邮件错误地分类为垃圾邮件(假正例)是更严重的问题。

假正例(I型错误)——原假设正确而拒绝原假设。

假负例

假负例的一个例子。例如,该模型预测一封邮件不是垃圾邮件(负例),但实际上这封邮件是垃圾邮件。这就像一个危险的信号,错误应该被及早纠正,因为它比假正例更严重。

假负例(II型错误)——原假设错误而接受原假设

上图能够很容易地说明上述指标。左图男士的测试结果是假正例因为男性不能怀孕;右图女士是假负例因为很明显她怀孕了。

从混淆矩阵,我们能计算出准确率、精度、召回率和F-1值。

准确率

准确率是模型预测正确的部分。

准确率的公式为:

当数据集不平衡,也就是正样本和负样本的数量存在显著差异时,单独依靠准确率不能评价模型的性能。精度和召回率是衡量不平衡数据集的更好的指标。

精度

精度是指在所有预测为正例的分类中,预测正确的程度为正例的效果。

精度越高越好。

召回率

召回率是指在所有预测为正例(被正确预测为真的和没被正确预测但为真的)的分类样本中,召回率是指预测正确的程度。它,也被称为敏感度或真正率(TPR)。

召回率越高越好。

F-1值

通常实用的做法是将精度和召回率合成一个指标F-1值更好用,特别是当你需要一种简单的方法来衡量两个分类器性能时。F-1值是精度和召回率的调和平均值。

普通的通常均值将所有的值平等对待,而调和平均值给予较低的值更高的权重,从而能够更多地惩罚极端值。所以,如果精度和召回率都很高,则分类器将得到很高的F-1值。

接受者操作曲线(ROC)和曲线下的面积(AUC)

ROC曲线是衡量分类器性能的一个很重要指标,它代表模型准确预测的程度。ROC曲线通过绘制真正率和假正率的关系来衡量分类器的敏感度。如果分类器性能优越,则真正率将增加,曲线下的面积会接近于1.如果分类器类似于随机猜测,真正率将随假正率线性增加。AUC值越大,模型效果越好。

累积精度曲线

CAP代表一个模型沿y轴为真正率的累积百分比与沿x轴的该分类样本累积百分比。CAP不同于接受者操作曲线(ROC,绘制的是真正率与假正率的关系)。与ROC曲线相比,CAP曲线很少使用。

以考虑一个预测客户是否会购买产品的模型为例,如果随机选择客户,他有50%的概率会购买产品。客户购买产品的累积数量会线性地增长到对应客户总量的最大值,这个曲线称为CAP随机曲线,为上图中的蓝色线。而一个完美的预测,准确地确定预测了哪些客户会购买产品,这样,在所有样本中只需选择最少的客户就能达到最大购买量。这在CAP曲线上产生了一条开始陡峭一旦达到最大值就会维持在1的折线,称为CAP的完美曲线,也被称为理想曲线,为上图中灰色的线。

最后,一个真实的模型应该能尽可能最大化地正确预测,接近于理想模型曲线。

参考链接:

http://www.semspirit.com/artificial-intelligence/machine-learning/classification/classifier-evaluation/classifier-evaluation-with-cap-curve-in-python/" \t "_blank"

分类器的代码见:

https://github.com/BadreeshShetty/Supervised-ML-Classification"\t "_blank"Github Repo

相关报道:

https://builtin.com/data-science/supervised-machine-learning-classification

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-08-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
数据分析:分类算法和评估
分类是在一群已经知道类型的样本中,训练一种分类器,让其能够对某种未知的样本进行分类。分类算法的分类过程就是建立一种分类模型来描述预定的数据集或概念集,通过分析由属性描述的数据库元组来构造模型。
马拉松程序员
2023/09/14
5120
数据分析:分类算法和评估
Python机器学习从原理到实践(1):决策树分类算法
一、决策树原理 决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。 决策树的根结点是所有样本中信息量最大的属性。树的中间结点是该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。决策树是一种知识表示形式,它是对所有样本数据的高度概括决策树能准确地识别所有样本的类别,也能有效地识别新样本的类别。 决策树算法ID3的基本思想: 首先找出最有判别力的属性,把样例分成多个子集,每个子集又选择最有判别力的属性进行划分,一直进行到所有子集仅包含同一类型的数据为止。最后得到一棵决
机器学习AI算法工程
2018/03/13
1.4K0
Python机器学习从原理到实践(1):决策树分类算法
机器学习面试问题集(2018-3-13更新)
http://blog.csdn.net/u011239443/article/details/76360294
小爷毛毛_卓寿杰
2019/02/13
8790
机器学习面试问题集(2018-3-13更新)
机器学习算法中分类知识总结!
本文将介绍机器学习算法中非常重要的知识—分类(classification),即找一个函数判断输入数据所属的类别,可以是二类别问题(是/不是),也可以是多类别问题(在多个类别中判断输入数据具体属于哪一个类别)。与回归问题(regression)相比,分类问题的输出不再是连续值,而是离散值,用来指定其属于哪个类别。分类问题在现实中应用非常广泛,比如垃圾邮件识别,手写数字识别,人脸识别,语音识别等。
Datawhale
2020/10/23
6490
机器学习算法中分类知识总结!
机器学习基础篇_2/2
原始数据 –> 数据特征工程(训练数据和测试数据) –> 选择合适的算法进行学习 –> 建立模型 –> 模型评估(测试数据) –> 判断模型是否合格 –> 模型应用(一般以API的形式提供)
卡伊德
2022/09/13
5900
机器学习基础篇_2/2
机器学习常见算法优缺点汇总
机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。
机器学习AI算法工程
2019/10/28
1.3K0
机器学习算法优缺点对比及选择(汇总篇)
本文的目的,是务实、简洁地盘点一番当前机器学习算法。文中内容结合了个人在查阅资料过程中收集到的前人总结,同时添加了部分自身总结,在这里,依据实际使用中的经验,将对此模型优缺点及选择详加讨论。
Ai学习的老章
2019/07/15
1.3K0
机器学习算法优缺点对比及选择(汇总篇)
汇总 | 机器学习算法优缺点 & 如何选择
机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。
昱良
2019/03/07
9430
基于Spark的机器学习实践 (八) - 分类算法
贝叶斯定理(英语:Bayes' theorem)是概率论中的一个定理,描述在已知一些条件下,某事件的发生概率。
JavaEdge
2019/04/16
1.9K0
基于Spark的机器学习实践 (八) - 分类算法
深度学习500问——Chapter02:机器学习基础(1)
机器学习起源于上世纪50年代,1959年在IBM工作的Arthur Samuel设计了一个下棋程序,这个程序具有学习的能力,它可以在不断的对弈中提高自己。由此提出了“机器学习”这个概念,它是一个结合了多个学科,如概率论、优化理论、统计等,最终在计算机上实现自我获取新知识,学习改善自己的这样一个研究领域。机器学习是人工智能的一个子集,目前已经发展处许多有用的方法,比如支持向量机,回归,决策树,随机森林,强化学习,集成学习,深度学习等等,一定程度上可以帮助人们完成一些数据预测,自动化,自动决策,最优化等初步替代脑力的任务。本章我们主要介绍下机器学习的基本概念、监督学习、分类算法、逻辑回归、代价函数、损失函数、LDA、PCA、决策树、支持向量机、EM算法、聚类和降维以及模型评估有哪些方法、指标等等。
JOYCE_Leo16
2024/03/19
2000
深度学习500问——Chapter02:机器学习基础(1)
第二章--第三篇---文本分类
文本分类是一种基于自然语言处理技术,对给定的文本进行分类的方法。具体而言,文本分类将一篇文本分配到一个或多个预定义的类别中,这些类别通常是事先定义好的,例如新闻、评论、垃圾邮件、商品分类等。 文本分类在实际应用中有着广泛的应用,例如在舆情监控、垃圾邮件过滤、新闻分类、商品分类、情感分析等领域。通过对海量文本数据进行分类,可以帮助用户快速准确地获得所需信息,从而提高效率。此外,文本分类还可以帮助企业识别消费者的意见和情感倾向,为其提供更好的产品和服务,增强市场竞争力。
喵叔
2023/05/11
4860
机器学习各类算法比较
导语:机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地进行测试,进行比较,然后调整参数确保每个算法达到最优解,最后选择最好的一个。但是如果你只是在寻找一个“足够
IT派
2018/03/29
8380
机器学习各类算法比较
机器学习测试题(上)
人工智能一直助力着科技发展,新兴的机器学习正推动着各领域的进步。如今,机器学习的方法已经无处不在—从手机上的语音助手到商业网站的推荐系统,机器学习正以不容忽视的速度闯入我们的生活。以下测试题可以粗略的检测你对机器学习的了解和掌握程度。 1.以下哪一种方法最适合在n(n>1)维空间中做异常点检测。 A 正态分布图 B 盒图 C 马氏距离 D 散点图 答案:C 马氏距离是是一种有效的计算两个未知样本集的相似度的多元计量方法,以卡方分布为基础,表示数据的协方差距离。与欧氏距离不同的是它考虑到各种特性之间的联
小莹莹
2018/04/19
2.7K0
机器学习测试题(上)
《机器学习实战》总结篇
前些天完成了《机器学习实战》这本书的学习,也利用 Python3 实现了各个章节的代码,对传统的机器学习方法有了更进一步的了解,这里做一个总结。 代码传送门: https://github.com/xyxxmb/Machine-Learning-In-Action 目录 第一部分:分类 【Ch1】机器学习基础 【Ch2】k - 近邻算法 【Ch3】决策树 【Ch4】基于概率论的分类方法:朴素贝叶斯 【Ch5】Logistic 回归 【Ch6】支持向量机 【Ch7】利用 AdaBoost 元算法
echobingo
2018/04/25
9570
《机器学习实战》总结篇
机器学习算法背后的数学原理
机器学习算法的设计让它们从经验中学习,当它们获取越来越多的数据时,性能也会越来越高。每种算法都有自己学习和预测数据的思路。在本文中,我们将介绍一些机器学习算法的功能,以及在这些算法中实现的有助于它们学习的一些数学方程。
deephub
2020/09/14
1.3K0
机器学习算法选择
对于你的分类问题,你知道应该如何选择哪一个机器学习算法么?当然,如果你真的在乎精度(accuracy),最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地进行测试,进行比较,然后调整参数确保每个算法达到最优解,最后选择最好的一个。但是如果你只是在寻找一个“good enough”的算法来解决你的问题,或者这里有些技巧可以参考,因为其中会有一些基本准则。
Ai学习的老章
2019/04/08
6390
机器学习算法选择
数据分享|WEKA信贷违约预测报告:用决策树、随机森林、支持向量机SVM、朴素贝叶斯、逻辑回归|附代码数据
数据变得越来越重要,其核心应用“预测”也成为互联网行业以及产业变革的重要力量。近年来网络 P2P借贷发展形势迅猛,一方面普通用户可以更加灵活、便快捷地获得中小额度的贷款,另一方面由于相当多数量用户出现违约问题而给 P2P信贷平台以及借贷双方带来诸多纠纷,因此根据用户历史款情况准确预测潜在是否还会发生违约就非常有必要。
拓端
2023/05/17
1.2K0
基于Spark的机器学习实践 (八) - 分类算法
贝叶斯定理(英语:Bayes’ theorem)是[概率论]中的一个[定理],描述在已知一些条件下,某事件的发生概率。 比如,如果已知某癌症与寿命有关,使用贝叶斯定理则可以通过得知某人年龄,来更加准确地计算出他罹患癌症的概率。
JavaEdge
2022/11/30
1.2K0
基于Spark的机器学习实践 (八) - 分类算法
大数据【企业级360°全方位用户画像】之USG模型和决策树分类算法
在之前的一篇博客《大数据【企业级360°全方位用户画像】之RFM模型和KMeans聚类算法》中,博主为大家带来了KMeans聚类算法的介绍。并在之后,基于不同的模型开发标签,例如RFM,RFE,PSM,都使用到了KMeans算法。
大数据梦想家
2021/01/27
9590
大数据【企业级360°全方位用户画像】之USG模型和决策树分类算法
机器学习以及相关算法
机器学习是人工智能的一个分支。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。现实问题抽象为数学问题,机器解决数学问题从而解决现实问题。
分母为零
2020/05/24
6420
相关推荐
数据分析:分类算法和评估
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档