在数据分析工作中,Pandas 的使用频率是很高的,一方面是因为 Pandas 提供的基础数据结构 DataFrame 与 json 的契合度很高,另一方面,如果我们日常的数据清理工作不是很复杂,往往几句简单的代码就可以进行规范。
Pandas 是基于 NumPy 构建的有更高级数据结构和分析能力的工具包。在 NumPy 中数据结构是围绕 ndarray 展开的,Pandas中的数据结构是Series和DataFrame。
Series是一个定长的字典序列,有两个基本属性,index和values,默认使用0,1,2,3.....递增的整数序列,也可以自己制定索引。
DataFrame类型数据结构类似数据库表,包括了行索引和列索引,可以看成由相同索引的Series组成的字典类型。
数据的清洗
删除DataFrame中的行或者列。
重命名列名columns,直接使用 rename(columns=new_names, inplace=True) 函数,
去掉重复值drop_duplicates()
df = df.drop_duplicates() #去除重复行
格式的转换,可以使用astype进行数据的转换
数据中的字符删除,使用strip函数,比如Math列中有*,可以使用如下代码删除
df2['Math']=df2['Chinese'].str.strip('*')
大小写的转换,upper()、lower()、title()
查找空值使用df.isnull()
数据统计
count()统计个数,但不计算空值。
describe()统计描述
min(),最小值、max()最大值、sum()求和、mean()平均值、median()中位数、var()方差、std()标准差
返回极值的索引位置
argmin()统计最小值的索引位置
argmax()统计最大值的索引位置
idxmin()统计最小值的索引值
idxmax()统计最大值的索引值
数据合并,merge()
基于指定列的连接
inner内链接,left,左连接,right右连接,outer外连接
Pandas除了可以直接导入csv和xlsx,文件外还可以实现对数据库的操作和查看。
领取专属 10元无门槛券
私享最新 技术干货