所谓决策数,多个特征,对于每个特征进行评估,对于结果为True和False分别进行处理,处理完之后,在当前的处理结果的基础上,在评估其他特征,直至评估完成。
如现有abc三个特征,其中a特征有三种分类:a1,a2,a3,b和c也对应有三种分类。那么假如数据在a的分类已完成,那么需要分别对a1、a2、a3的分类结果进行下一步的处理。处理过程如下,纯属个人描述,自己慢慢品:
公式理解:a有v中分类,Dv是分类v所包含数据量,D为总数据量。
信息熵
信息增益率Cain_ratio(D, a)
因此Iv(a)就是Ent(D),就是a相关的信息熵。
用法:
同样,在选择特征时优先使用信息增益率大的特征。从式子可以看出来的是分割的种类如果太多的话,Iv(a)也即是更小。而信息增益率会更加倾向于取值数目比较多的内容。所以先找信息增益中几个比较大的增益特征,判断他们的增益率,找最大的增益率。
基尼值
,指的是连续两次抽取相同分类的概率
p1的平方是指抽取两次都出现1的概率。
所以基尼值就是连续两次都抽取到不同分类的概率。如果基尼值大,则纯度低。
信息熵大,则纯度低。
基尼指数
基尼指小,代表纯度越高