自顶向下分裂属性
依据信息熵
其中D为数据集,类别
:出现在数据集D中的次数,:数据集D的个数
:在D中出现的相对频率即:
以属性A分裂后的数据集的信息熵
信息增益
每次选择以最优的信息增益分裂决策树
增加了信息增益比并取代了信息增益进行选择:
自动对连续属性离散化(数值区间划分成能够得到最小熵的点,比如按每次增加100计算最后最优划分点)
自动剪枝防止过度拟合
举个例子:
西瓜 | 重量/g | 颜色 | 质量 |
---|---|---|---|
西瓜1 | 1000 | 绿色 | 好 |
西瓜2 | 1200 | 黑色 | 不好 |
西瓜3 | 1900 | 绿色 | 不好 |
西瓜4 | 2300 | 绿色 | 好 |
西瓜5 | 2000 | 绿色 | 好 |
西瓜6 | 1800 | 绿色 | 不好 |
西瓜7 | 1700 | 绿色 | 不好 |
第一步计算数据集信息熵:好的3个,不好的4个
属性重量以2000划分>=2000 2个和<2000 5个 (数据离散化,1000,2300区间找划分能够得到最小熵的点,比如按每次增加100计算最后取最优,这里随机找了2000)
计算信息增益:
计算得,故先分裂重量
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。