信息增益:表示得知特征X的信息而使得类Y的信息的不确定性减少的程度.定义为集合D的经验熵与特征A在给定条件下D的经验条件熵之差
?
,也就是训练数据集中类与特征的互信息....信息增益算法:计算数据集D的经验熵
?
,计算特征A对数据集D的经验条件熵
?
,计算信息增益,选取信息增益最大的特征....最大熵模型:给定训练数据集,可以确定联合分布P(X,Y)的经验分布
?
和边缘分布P(X)的经验分布
?...作为回归问题中提升树算法中的残差的近似值,每一步以此来估计回归树叶结点区域以拟合残差的近似值,并利用线性搜索估计叶结点区域的值使损失函数最小化,然后更新回归树即可....重新计算每个簇的质心,取该簇中每个点位置的平均值.
重复2,3,4步直到k个质心都没有发生变化为止.
K-Means++:用于优化随机初始化质心的方法
从输入样本点中随机选择一个点作为第一个质心.