两个直观的原因
随机森林由多个单树组成,每个树基于训练数据的随机样本。它们通常比单个决策树更准确。下图显示随着更多树的添加,决策边界变得更加准确。
随机森林的决策边界
在这里,我们将提供两个直观的原因,即随机森林优于单一决策树。
特征空间中的分辨率更高
树木未被修剪。虽然像CART这样的单个决策树经常被修剪,但随机林的树完全成长并且未经过修剪,因此,自然地,特征空间被分成更多和更小的区域。
树木多种多样。在随机样本上学习每个随机林的树,并且在每个节点处,考虑用于分裂的随机特征集。
两种机制都在树木之间创造了多样性。
下面示出了两个随机树,每个树具有一个分裂。对于每棵树,可以为两个区域分配不同的标签。通过组合这两棵树,有四个区域可以不同地标记。
多样化的树木在特征空间中产生高分辨率。对于连续特征,它意味着更平滑的决策边界,如下所示。
处理过度拟合
单一决策树方法需要修剪以避免过度拟合。以下显示了未修剪树的决策边界。边界更平滑,但会出现明显的错误(过度拟合)。
那么随机森林如何构建未经过修剪的树木而不会过度拟合?我们在下面提供一个解释。
对于下面的两类(蓝色和红色)问题,分裂x1 = 3和x2 = 3可以完全分离这两个类。
然而,这两个分裂导致决策边界非常不同。换句话说,这些边界在某些地区相互冲突,可能并不可靠。
现在考虑随机森林。对于用于训练树的每个随机样本,样本中缺少红点的概率
因此,使用所有蓝色数据构建了大约3棵树中的1棵,并始终预测蓝色等级。其他2/3的树在训练数据中有红点。由于在每个节点处考虑了一个随机的特征子集,我们预计大约1/3的树使用x1,其余的1/3使用x2。这就是随机森林的精妙之处,每棵树选择的特征集是不同的,也就是从不同角度来解释问题。下面说明了两种树木的分裂。
通过聚合三种类型的树,决策边界如下所示。
可以看出,随机森林优雅地解决了过度拟合问题。
领取专属 10元无门槛券
私享最新 技术干货