科技简讯
近日,诺基亚在 MWC2018 上一口气发布了 5 款新机,包括复刻香蕉机的诺基亚 8110(4G)、定位入门的诺基亚 1、双曲面的诺基亚 8 等等。而这 5 款新机,可能只是诺基亚手机重回全球手机市场前五的先锋。HMD 首席执行官 Florian Seiche 表示,HMD 的目标是再次成为全球手机市场的主要参与者之一,并且正计划在未来几年使得诺基亚再次成为领先的智能手机制造商之一,同时在未来 3 到 5 年内排名至少前五。
作者简介
走在Data mining 路上的一名探索者;
某著名男女失衡断水断电大学汪;
Corozon共勉;
本篇学习一些概念及其关系,算法实现将在副文展现
正文
在学习《python数据挖掘入门与实践》的决策树球队预测后,为了更好的了解决策树学习,我又阅读了李航老师的《统计学习方法》决策树章节内容。这本书被许多大神极力推荐,我在阅读后也发现确实不负盛名。我将在这做个总结,希望能够起到引导作用。
什么是决策树?
决策树是一种基本的分类和回归方法,这里主要讨论分类决策树。举个例子,你和一个女生能不能在一起是个分类问题,它包括能在一起与不能在一起。这里有两个特征,你喜欢她,她喜欢你。这两个特征都有两个值喜欢与不喜欢。
它的本质是从训练数据集中归纳出一组分类规则。他不断地选择最优特征,并根据该特征对数据集进行分割,使得数据集在原有基础上有一个最好的分类。
决策树学习分为几个步骤?
决策树学习分为特征选择,决策树的生成和决策树的剪枝三个步骤。算法实现主要有ID3、C4.5和CART。
一组数据集有多少决策树?
从另一个角度看,决策树学习是由训练数据集估计条件概率模型,基于特征空间划分的类的条件概率模型有无数个。我们选择的标准是:该决策树对训练数据集有很好的拟合,而且它要对未知数据有很好的预测。
怎么选择特征?
特征选择的准则通常是考虑信息增益或信息增益比,例如上面例子,你喜欢她,她喜欢你两个特征哪个特征更能决定在不在一起。信息增益或者信息增益比就是决定的度量。公式将在副文实现。
怎么生成决策树?
决策树的生成算法有ID3,C4.5和CART。ID3的核心是在各个结点应用信息增益选择特征,递归的构建决策树。而C4.5是ID3的改进,它应用信息增益比。CART算法生成决策树就是递归的构建二叉决策树的过程。
为什么要进行剪枝?
决策树生成算法依赖于训练数据集,对于训练数据集会有很好的分类,但是对于未知的测试数据却不尽人意,这是过拟合现象。简而言之就是你构建的决策树太复杂啦,细分的过分。
怎么进行决策树剪枝?
在决策树学习中将已生成的树进行简化的过程就叫剪枝。决策树的剪枝往往通过极小化决策树整体的损失函数来实现。剪枝算法不尽相同,同样我会在副文实现一部分。
领取专属 10元无门槛券
私享最新 技术干货