输出Y为连续变量,将输入划分为M个区域,分别为R1,R2,…,RM,每个区域的输出值分别为:c1,c2,…,cm则回归树模型可表示为:
接下来可以使用平方误差 来表示训练数据的预测误差...将输入空间划分为M个区域R1,R2,…,RM,生成决策树:
提升树 Boosting Decision Tree
提升树是迭代多棵回归树来共同决策。...然后让一棵树去拟合每个样本的残差。
回归树和决策树很类似,只是回归树把落入叶子节点的样本,对于他们的标签求了个平均值输出,注意,这里的标签,对于GBDT来说,是每一个样本的残差。...估计回归树叶节点区域,以拟合残差的近似值。...xgboost借鉴了随机森林的做法,支持列抽样,不仅能降低过拟合,还能减少计算,这也是xgboost异于传统gbdt的一个特性。
缺失值的处理。