; 如 : 时间属性的数值 , 有用秒作为单位的 , 有用小时作为单位的 , 必须统一成同一个时间单位 ;
③ 数据清洗 : 识别 和 处理 数据缺失 , 噪音数据 , 数据不一致 等情况 ; 如 :..., 现在需要将样本属性映射到
[L, R]
区间内 , 根据等比例映射原理 , 属性值
x
映射到新区间后的值计算方法如下 :
v = \cfrac{x - l}{r-l}(R-L) + L...分箱离散化 分为 等距离分箱 , 等频率分箱 ;
等距离分箱 : 又称为 等宽度分箱 , 将属性的每个取值映射到等大小区间的方法 ;
如 : 学生考试分数 ,
0
~
100
分 , 以
10...分为一档 , 分为
10
档 ,
15
分处于
11
~
20
档 ,
52
分处于
51
~
60
档 ;
等距离分箱 , 可能导致某些取值多 , 某些取值少 , 如...71
~
80
这一档很多 ,
01
~
10
这一档几乎没有 ;
等频率分箱 : 又称为 等深度分箱 , 将每个取值映射到一个区间 , 每个区间包含的取值个数相同 ;
2、基于熵的离散化