Loading [MathJax]/jax/output/CommonHTML/jax.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >决策树算法(1)

决策树算法(1)

原创
作者头像
一口盐汽水
修改于 2020-11-18 03:40:23
修改于 2020-11-18 03:40:23
5530
举报

ID3算法:

自顶向下分裂属性

依据信息熵

其中D为数据集,类别

:出现在数据集D中的次数,:数据集D的个数

:在D中出现的相对频率即:

以属性A分裂后的数据集的信息熵

信息增益

每次选择以最优的信息增益分裂决策树

ID3的改进,C4.5算法:

增加了信息增益比并取代了信息增益进行选择:

自动对连续属性离散化(数值区间划分成能够得到最小熵的点,比如按每次增加100计算最后最优划分点)

自动剪枝防止过度拟合

举个例子:

西瓜

重量/g

颜色

质量

西瓜1

1000

绿色

西瓜2

1200

黑色

不好

西瓜3

1900

绿色

不好

西瓜4

2300

绿色

西瓜5

2000

绿色

西瓜6

1800

绿色

不好

西瓜7

1700

绿色

不好

第一步计算数据集信息熵:好的3个,不好的4个

属性重量以2000划分>=2000 2个和<2000 5个 (数据离散化,1000,2300区间找划分能够得到最小熵的点,比如按每次增加100计算最后取最优,这里随机找了2000)

计算信息增益:

计算,故先分裂重量

划分重量
划分重量
划分颜色
划分颜色

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
常用决策树算法
再使用某一特征A对数据及逆行分类后,其不确定度会减少(已经进行过一定程度的分类),此时的信息熵也会减小。假设特征A 将数据分为
Steve Wang
2023/10/12
3750
分类和回归-决策树算法(ID3、C4.5和CART)
决策树(Decision Tree)是⼀种树形结构,每个节点表示⼀个属性上的判断,每个分⽀代表⼀个判断结果的输出,最后每个叶节点代表⼀种分类结果,本质是⼀颗由多个判断节点组成的树。
唔仄lo咚锵
2022/10/31
1.1K0
分类和回归-决策树算法(ID3、C4.5和CART)
西瓜书4-决策树
从西瓜书和统计学习方法中学习了决策树的相关知识,同时在网上查找了树的知识点,最重要的是二叉树和树3种的遍历方式
皮大大
2021/03/02
1.2K0
【机器学习】算法原理详细推导与实现(七):决策树算法
在之前的文章中,对于介绍的分类算法有逻辑回归算法和朴素贝叶斯算法,这类算法都是二分类的分类器,但是往往只实际问题中
机器学习和大数据挖掘
2020/08/24
4900
【机器学习】算法原理详细推导与实现(七):决策树算法
决策树(ID3,C4.5,CART)原理以及实现
决策树是一种基本的分类和回归方法.决策树顾名思义,模型可以表示为树型结构,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布.
用户1631856
2018/12/17
9490
分类规则挖掘(二)
  决策树 (Decision Tree) 是从一组无次序、无规则,但有类别标号的样本集中推导出的、树形表示的分类规则。树的叶子结点表示类别标号,即分类属性的取值,对应一个数据对象的子集;树的内部结点为条件属性,它是一个数据对象子集合的标识符;一个内部结点为每个条件属性值或组合的条件属性值构成一个树枝,连接到树的下一层结点 (也是数据对象子集);从树根到叶子结点的一条路径称为一条决策规则,它可以对未知数据进行分类或预测。
Francek Chen
2025/01/22
2160
分类规则挖掘(二)
好记忆的机器学习面试--决策树
其实用一下图片能更好的理解LR模型和决策树模型算法的根本区别,我们可以思考一下一个决策问题:是否去相亲,一个女孩的母亲要给这个女海介绍对象。
mantch
2019/07/30
5700
好记忆的机器学习面试--决策树
决策树算法原理(上)
    决策树算法在机器学习中算是很经典的一个算法系列了。它既可以作为分类算法,也可以作为回归算法,同时也特别适合集成学习比如随机森林。本文就对决策树算法原理做一个总结,上篇对ID3, C4.5的算法思想做了总结,下篇重点对CART算法做一个详细的介绍。选择CART做重点介绍的原因是scikit-learn使用了优化版的CART算法作为其决策树算法的实现。
刘建平Pinard
2018/08/14
6980
决策树算法原理(上)
决策树 ID3 算法
ID3 没有剪枝策略,容易过拟合 信息增益准则对可取值数目较多的特征有所偏好,类似“编号”的特征其信息增益接近于 1 只能用于处理离散分布的特征没有考虑缺失值
小小程序员
2023/12/06
5400
图解机器学习 | 决策树模型详解
教程地址:http://www.showmeai.tech/tutorials/34
ShowMeAI
2022/03/10
4K0
图解机器学习 | 决策树模型详解
【机器学习-监督学习】决策树
  本文开始,我们将介绍机器学习中与神经网络并行的另一大类模型——决策树(decision tree)模型及其变种。决策树模型是非参数化模型。决策树模型简称树模型,顾名思义,它采用了和树类似的结构。图1展示了现实中的树与计算机中的树的异同。现实中的树是根在下、从下向上生长的,计算机中的树却是根在上、从上向下生长的。但是,两者都有根、枝干的分叉与叶子。在计算机的树中,最上面的节点称为根节点,最下面没有分叉的节点称为叶节点。其中,根节点和内部节点都有一些边指向其他节点,这些被指向的节点就称为它的子节点。叶节点是树的最末端,没有指向其他节点的边。而除了根节点之外,每个内部节点和叶节点都有唯一的节点指向它,该节点称为其父节点。
Francek Chen
2025/01/22
3040
【机器学习-监督学习】决策树
数据仓库作业六:第9章 分类规则挖掘
1、设网球俱乐部有打球与气候条件的历史统计数据如下表1所示。它有“天气”、“气温”、“适度”和“风力”4个描述气候的条件属性,类别属性为“是”与“否”的二元取值,分别表示在当时的气候条件下是否适宜打球的两种类别。
Francek Chen
2025/01/22
1680
数据仓库作业六:第9章 分类规则挖掘
决策树
输入: 训练集:D= \{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\} ;属性集:A= \{a_1,a_2,..,a_d\} 。
花鸣溪
2019/11/28
9700
决策树
【数据挖掘】决策树中根据 信息增益 确定划分属性 ( 信息与熵 | 总熵计算公式 | 每个属性的熵计算公式 | 信息增益计算公式 | 划分属性确定 )
1 . 属性选择方法 : 树根属性选择的方法很多 , 这里介绍一种常用的方法 , 信息增益 ;
韩曙亮
2023/03/27
2.4K0
【数据挖掘】决策树中根据 信息增益 确定划分属性 ( 信息与熵 | 总熵计算公式 | 每个属性的熵计算公式 | 信息增益计算公式 | 划分属性确定 )
『数据挖掘十大算法 』笔记一:决策树
C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART
百川AI
2021/10/19
9670
机器学习--决策树算法
在生活中,“树”这一模型有很广泛的应用,事实证明,它在机器学习分类和回归领域也有着深刻而广泛的影响。在决策分析中,决策树可以明确直观的展现出决策结果和决策过程。如名所示,它使用树状决策模型。它不仅仅是在数据挖掘中用户获取特定目标解的策略,同时也被广泛的应用于机器学习。
Kindear
2021/10/26
7340
三种决策树算法(ID3, CART, C4.5)及Python实现
由于某些不可抗拒的原因,LaTeX公式无法正常显示. 点击这里查看PDF版本 Github: https://github.com/yingzk/MyML 博 客: https://www.yingjoy.cn/ 1. 决策树(Decision Tree)简介 1.1. 决策树的原理 决策树是属于机器学习监督学习分类算法中比较简单的一种,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所
YingJoy_
2018/03/21
2.9K0
三种决策树算法(ID3, CART, C4.5)及Python实现
如果你还不会决策树,那你一定要进来看看
决策树是我本人非常喜欢的机器学习模型,非常直观容易理解,并且和数据结构的结合很紧密。我们学习的门槛也很低,相比于那些动辄一堆公式的模型来说,实在是简单得多。
TechFlow-承志
2020/05/25
6810
如果你还不会决策树,那你一定要进来看看
[白话解析] 深入浅出熵的概念 & 决策树之ID3算法
信息会改变你对事物的未知度和好奇心。信息量越大,你对事物越了解,进而你对事物的好奇心也会降低,因为你对事物的确定性越高。如果你确定一件事件的发生概率是100%,你认为这件事情的信息量为0——可不是吗,既然都确定了,就没有信息量了;相反,如果你不确定这件事,你需要通过各种方式去了解,就说明这件事是有意义的,是有信息量的。
罗西的思考
2020/09/07
2K1
1、决策树理论知识详解与sklearn实践
首先看决策树的相关理论,在我看过的一些资料中,李航老师的《统计机器学习》这部分写得最全面,因此下面的内容主要参考了这本书,但顺序我做了一些更改,改成了决策树理论建立的顺序,以便读者能够更容易看懂。
zstar
2022/06/13
4870
1、决策树理论知识详解与sklearn实践
相关推荐
常用决策树算法
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档