移除低方差的特征(Removing features with low variance)
VarianceThreshold 是特征选择中的一项基本方法。它会移除所有方差不满足阈值的特征。...默认设置下,它将移除所有方差为0的特征,即那些在所有样本中数值完全相同的特征。
假设我们有一个带有布尔特征的数据集,我们要移除那些超过80%的数据都为1或0的特征。...布尔特征是伯努利随机变量,该类变量的方差为:
?...[1, 0],
[0, 0],
[1, 1],
[1, 0],
[1, 1]])
果然, VarianceThreshold 移除了第一列特征...,第一列中特征值为0的概率达到了
?