随机森林算法的思想就是通过集成学习和随机的方式将多棵树集成的一种算法,通过多棵树对数据集进行学习训练最后投票选举出最佳的一个最终的输出。这里每一棵树是一颗决策树,也叫作一个分类器。
其实这几个概念是在决策树中出现的,决策树通过计算每一次分裂的最佳学习增益来决定如何选择下一步将要分裂的属性,也就是特征选取的顺序。
信息是用来消除随机不确定的东西,在决策树中,一般用一个概率公式来表示:
I(X)用来表示随机变量的信息,P(Xi)用来表示xi发生的概率。
在化学中我们也学过关于熵的一些东西,比如熵增加越趋向于混乱,熵减少趋向于稳定,在机器学习中当熵越大表示这个类别的不确定性越大,反之越小。
信息增益是熵增加或者减少的一个数学度量,当信息增量的值为正时表示熵增加了,类的不确定性也增加了,反之变小。
集成学习通过建立多个模型对数据进行学习来解决单一预测带来的预测误差,他的工作原理是汇总多个模型(分类器)的学习结果,这里这些模型是独立作出预测的!然后得出最优的预测结果,所以他的预测结果总是优于或者等于单个模型的预测结果的。上图中的个体学习通常为决策树或者神将网络之类的。
为什么要随机选择训练集?
如果不进行随机抽样,每棵树的训练集都一样得到的结果也一样就没有必要进行下去没因为最后的结果都只有一个
为什么要有放回的抽样?
如果没放回的抽样,那每一个样本都没有共同点(或者说相同的特征),那这可是就是有偏向性的,训练的结果都有很大的差异,或者完全不同,最终导致每一个分类器得到的结果都是盲人模型的结果,很片面!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。