重复值的处理
利用drop_duplicates()函数删除数据表中重复多余的记录, 比如删除重复多余的ID.
1 import pandas as pd
2 df = pd.DataFrame({"ID...缺失值的处理
缺失值是数据中因缺少信息而造成的数据聚类, 分组, 截断等
2.1 缺失值产生的原因
主要原因可以分为两种: 人为原因和机械原因.
1) 人为原因: 由于人的主观失误造成数据的缺失, 比如数据录入人员的疏漏...字段的抽取
使用slice(start, end)函数可完成字段的抽取, 注意start是从0开始且不包含end....2) 范围运算: df[df.字段名.between(s1, s2)], 注意既包含s1又包含s2, 比如抽取年龄大于等于23小于等于28的记录.
df_mer[df_mer.Age.between(23,28...12.记录的合并
使用concat()函数可以将两个或者多个数据表的记录合并一起, 用法: pandas.concat([df1, df2, df3.....])
1 import pandas as