1为什么要用模型融合:
有那么多的机器学习的算法,可是没有一个算法对所有的问题都是最优的(天下没有免费的午餐),因此,我们可以通过融合不同的模型,使得模型结果的准确度获得提升。
2 常用的融合方法(从易到难)
2.1 (voting)投票
投票分为“hard”,“soft”两种,hard是将类别出现最多的那个标签作为最终的标签。‘soft’ 是指通过平均每个类别的标签概率输出最终的类别
2.1.1 hard voting
我们假设有以下3个分类器,每个分类器预测的类别的预测标签如下
根据hard voting,最终的模型预测结果为1。
2.1.2Weighted Majority Vote
其中
有如下三个模型预测结果同2.1.1,并且我们给它赋予权重为,那么,根据公式,最终的融合结果预测出来的类别应该是1
2.1.3 soft vote
其中wj是每个类别标签可以赋予的权重,若有三个模型,预测出的结果如下:
若将他们等权重分配,那么,得到的可能类别计算如下
然而,如果分别分配权重为,那么,结果为
模型融合的条件:
1 Base Model 之间的相关性要尽可能的小。
2 Base Model 之间的性能表现不能差距太大(可以不用)
今日概念:模型的鲁棒性指什么?
两方面:
1 模型能够不被数据集中某些小的错误数据所影响,
2:因为训练样本与预测样本不大相同,所以即使当测试集的数据分布与训练集数据分布比较不同的时候,模型也能给出较好的预测结果。
未完待续……(明日是python 实现过程)
领取专属 10元无门槛券
私享最新 技术干货