前两个推送讲的是决策树和规则树,它们解决的结局变量都是分类问题,今天说的是回归树和模型树,它们解决的结局变量为连续型数值变量。
首先复习一下,分类决策树里,模型是根据熵(Entropy)或者准确率来实现节点属性变量的选取的;相对应的,数值决策树可以通过统计量来选取节点属性(包括:方差、标准差、平均绝对偏差等)。一个常用的统计量叫做标准偏差减少(Standard Deviation Reduction,SDR)。
上式中,sd(T)代表样本的总标准差,Ti表示第i个属性中的样本量;Sd(Ti)表示Ti样本的标准差,Ti/T表示Ti样本占总样本的比例。
从上式中可以发现,重新分割后,各Ti样本的方差最小时,SDR最大,以此为依据,可以找出最理想的分割(即分割样本后,各组内的方差最小,既可以将数值相近的样本尽可能的归为一类)。同样的,如果重新分割后方差不再减少,或者无属性变量可供分割,那么决策树就到达了叶节点。
回归树和模型树的区别并不在分割方式,而在于输出结果的赋值方式:
回归树给每一个样本的预测值是该样本所在叶节点的平均值;而模型树会在叶节点建立多元线性回归模型,所以一个模型树包含了很多多元线性回归模型(关于啥是多元线性回归模型,请翻看统计学教材),然后根据回归算法进行赋值。
所以回归树并没有用到统计学中的回归算法,这算是一个小trick了。
领取专属 10元无门槛券
私享最新 技术干货