商务智能系列文章目录
【商务智能】数据预处理
----
文章目录
商务智能系列文章目录
前言
一、数据预处理主要任务
二、数据规范方法
1、z-score 规范化
2、最小-最大规范化
三、数据离散方法...1、分箱离散化
2、基于熵的离散化
总结
----
前言
在进行数据分析之前 , 先要对数据进行预处理操作 , 本篇博客简要介绍常用的数据预处理方法 ;
一、数据预处理主要任务
数据预处理主要任务..., 在数据分析过程中导致分析结果出现误差 ; 如 : 时间属性的数值 , 有用秒作为单位的 , 有用小时作为单位的 , 必须统一成同一个时间单位 ;
③ 数据清洗 : 识别 和 处理 数据缺失 , 噪音数据..., 数据不一致 等情况 ; 如 : 某样本某属性数据缺失 , 将 同类样本的该属性的平均值 赋值给该缺失属性的样本 ;
④ 特征提取与特征选择 : 面向分类的特征选择方法 , 有效的特征选择 , 既可以...{x - \mu}{\sigma}
;
其中
x
是本次要规范的属性值 ,
\mu
是均值 ,
\sigma
是标准差 , 该公式的含义是 计算当前属性值
x
偏离均值
\mu
的距离是多少个标准差