数据采集过程可能会造成数据缺失 数据通过网络等渠道进行传输时可能出现数据丢失或出错,造成数据丢失 在数据整合过程中也可能引入缺失值
取决于数据收集,数据录入流程中的设定 如:字符的缺失值有missing,空格等;数字为999,-600等
null,missing,nan 自定义字符,比如unkown 3、缺失值的表示格式
表示:numpy.nan/numpy.NaN 类型:浮点(float)型
import numpy as np
print('np.nan的属性为:'+str(type(np.nan)))
print('np.NaN的属性为:'+str(type(np.NaN)))
在Python语言的Pandas库中,缺失值默认使用numpy.nan表示 Pandas库可以用其他字符来代替nan,如missing,NA等 下列代码生成含有默认缺失值的Series数组example_data
import numpy as np
import pandas as pd
example_data =pd.Series([1,2,3,np.nan,4])
example_data
如果给定数据中的缺失值是用其他字符来表示的,我们可以用NaN进行替换,由于numpy.nan为float型,再将数据转换为浮点型即可。
example_data1 =pd.Series([1,2,3,‘missing’,4])
example_data1
# 替换
example_data1.replace('missing',np.NaN)
本次的分享就到这里了