在R语言中,涉及到数据去重与缺失值处理的函数一共有下面这么几个:
unique
distinct
intersect
union
duplicated #布尔判断
is.na()/!...---------
Python:
---------
#列表去重:
set(将列表元组化过滤重复数据)
M=[1,4,3,6,5,4,3,2,7,8]
list(set(M))
#数据框的去重:
import...#缺失值处理:
对于列表而言,numpy中诸多统计函数都有针对缺失值的操作:
nansum/nanmean/nanmin/nanmax
val= np.array([5,np.nan,8,9,np.nan...pandas中的序列和数据框都有固定的缺失值检测、描述、差值方法:
myserie=pd.Series(["A","B",np.nan,"C"])
mydata=pd.DataFrame({
"A":[..."A","B","C","D","E","F"],
"B":[43,np.nan,56,67,np.nan,56]
})
#检测缺失值:
myserie.isnull()
mydata.isnull