特征选择
在数据集中的所有特征列表中,选择分类效果最好的特征,或者说让分类效果尽可能的"纯",通俗的说就是让划分的每个结果的尽可能属于同一个类别,都是自己人....,用来衡量特征f的划分效果如何....决策树生成
决策树本质上也是一棵树,所以符合数据结构中树的一般性构造过程,也就是递归.
既然是递归构建过程,首先要明白的是递归终止条件,否则就会陷入死循环.那么决策树的终止条件是什么呢?...如果是分类树:
如果节点数据全是同一类别,停止递归[没有必要了,都是自己人];
如果特征列表为空,停止递归[在分类问题中,一般情况下,每种划分特征只会用一次,用完就扔了---负心汉];
如果所有样本在所有特征上取值都相同...调用自己,并增加返回结果到分支结点中
return 分支结点
上面伪代码中存在一个问题, 类标签怎么确定?