作者:Coggle
Kaggle知识点:模型加权集成7种方法
简介
在竞赛中如果对多个预测结果进行集成,最方便的做法是直接对预测结果进行加权求和。此时不同任务,加权方法不同:
在本文中我们将介绍最常见的分类 & 回归任务的结果加权方法,也就是Blend操作。
在对结果进行集成时需要考虑如下两点:
集成学习的精度收益是需要模型&预测结果的多样性,如果多样性不足,则最终预测结果和单个模型类似。
精度差异是指模型之间的精度差异,如果精度差异很大最终集成的效果也不会很好。如下情况2的模型精度差异就较大。
三个模型精度:[0.9, 0.92, 0.92]
三个模型精度:[0.9, 0.8, 0.7]
Out of fold又名袋外预测,是一个模型在交叉验证的过程中使用训练部分进行训练,然后对验证集进行预测,交替得到训练集和测试集预测结果。
如果我们拥有三个模型,通过交叉验证可以得到3个训练集预测结果和3个验证集预测结果。
如下展示的几种方法,都需要训练集标签 与 训练集预测结果搜索得到参数,然后将参数在测试集上进行使用。
oof_preds = []
for col in oofCols:
oof_preds.append(oof_df[col])
y_avg = np.mean(np.array(oof_preds), axis=0)
weights = [1,2,3]
y_wtavg = np.zeros(len(oof_df))
for wt, col in zip(weights, oofCols):
y_wtavg += (wt*oof_df[col])
y_wtavg = y_wtavg / sum(weights)
rankPreds = []
for i, col in enumerate(oofCols):
rankPreds.append(oof_df[col].rank().values)
y_rankavg = np.mean(np.array(rankPreds), axis=0)
rankPreds = []
weights = [1,2,3]
for i, col in enumerate(oofCols):
rankPreds.append(oof_df[col].rank().values * weights[i])
y_rankavg = np.mean(np.array(rankPreds), axis=0)
for w1 in np.linspace(0, 1, 100):
for w2 in np.linspace(0, w2, 100):
w3 = 1 - w1 - w3
如果 w1, w2, w3取得更好的精度,保留权重
否则尝试下一组权重组合
from sklearn.linear_model import LinearRegression
lr = LinearRegression(fit_intercept=False)
lr.fit(
三个模型对训练集预测结果,
训练集标签
)
lr.coef_ # 线性回归的权重
def f(x):
return x[0]**2 + x[1]**2 + (5 - x[0] - x[1])
from scipy import optimize
minimum = optimize.fmin(f, [1, 1])