数据那么多,该怎么分析呢?大家介绍一下数据挖掘中的,第一步!数据预处理!主要基于Python下的机器学习工具scikit-learn中的preprocessing模块。
样本数据一般是多维的,而不同维度之间的特征的量纲与数值的数量级都不一样,那些较小的值可能就无法体现出来。通过标准化处理,使不同的特征具有相同的尺度。
一:标准化方法:z-socre法。可以去除量纲,得到均值为0,标准差为1的一组数据。代码如下:
二:区间缩放,将数据落在0到1的范围内。
# MinMaxScaler
min_max_scaler = preprocessing.MinMaxScaler(feature_range=(,1))
d_minmax = min_max_scaler.fit_transform(d)
print(d_minmax)
三:归一化 Normalization,将每个样本缩放到单位范数。
d_norma = preprocessing.normalize(d)
print(d_norma)
四:处理缺失值
imp = preprocessing.Imputer(missing_values="NaN",strategy="mean",axis=)
X=np.array([[1,2], [np.nan,3], [7,6]])
Y=[[np.nan,2], [6, np.nan], [7,6]]
imp.fit(X)
z = imp.transform(Y)
print(z)
strategy表示按照X的mean值来填充。axis=0表示按照列的mean来填充。
领取专属 10元无门槛券
私享最新 技术干货