1 如何构建决策树?
2 决策树适合解决什么问题?
决策树(Decision Tree)算法是机器学习(Machine Learning)中分类算法中的一个重要算法,属于监督学习(Supervised Learning)算法。决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。
决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得对各个子数据集有一个最好的分类的过程。决策树构造可以分三步进行:特征选择、决策树的生成、决策树的修剪。
变量的不确定性越大,熵也就越大.
选择属性判断节点
信息获取量(Information Gain):Gain(A) = Info(D) - Infor_A(D)
通过A来作为节点分类获取了多少信息
电脑销售客户的训练数据集:
根据年龄、收入、是否为学生,信用度判断是否买电脑
类似,Gain(income) = 0.029,
Gain(student) = 0.151,
Gain(credit_rating)=0.048
所以,选择age作为第一个根节点
重复上面的操作。
算法:
判定树:根据条件判定是否去play
缺点: