AdaBoost算法是:
我的问题是如何训练分类器G_m(x),使用权值w_i训练分类器意味着什么?它是通过\{w_i,y_i\}_{i=1}^{N}来匹配分类器的吗?
发布于 2022-01-14 23:05:46
Adaboost是一种以高偏差但低方差开始的模型(集合),与高方差但低方差的套袋组合形成对比(见图1)。
虽然最初的纸使用决策树桩,但理论上可以使用任何其他分类器,更准确地说是使用不稳定分类器。
在AdaBoost中的拟合过程恰好是一组数据的深度1决策树。给定相关的集合和权重,对决策树(树桩)的拟合问题涉及到寻找“最佳”变量x和阈值s,其中最佳变量和分割阈值被定义为将节点杂质的某些度量最小化的对,如Gini指数。
因此,给定一组待分割的候选变量和一组训练数据,将有一个唯一的解(单变量和阈值),这是当前提升阶段的最佳深度1决策树。我们可以从中选择分离变量的变量集={\{{1,2,…}\}}可能是我们拥有的全部特性集,也可以是(随机)子集。许多决策树分类器的实现使得拟合算法能够在每个分支阶段随机提取一个变量子集。
我们之所以更多地衡量错误的分类点,是因为这些是我们想要纠正的。在给定的加权数据上,某个特定变量可能不是拆分的最佳变量,但一旦权重分布不均匀,它可能成为拆分的最佳变量。它可以很好地纠正以前的学习者的错误。
还值得一提的是,不能保证您的每个特性在最终结果中都会出现两次。可能是重复了几个特性,并且可能完全忽略了一些特性,在AdaBoost过程中,一个变量可能出现在一个以上的树桩中。
最后,您可以发现这些资源很有用:
发布于 2022-01-15 13:35:35
权重是指分配给错误分类样本的权重。Adaboost根据上面所示的计算为每一个错误分类的观测分配权重。当它训练提升模型时,这个权重帮助模型更加重视错误分类的观测。
https://datascience.stackexchange.com/questions/103092
复制相似问题