首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python计算工具:pandas

在数据分析工作中,Pandas 的使用频率是很高的,一方面是因为 Pandas 提供的基础数据结构 DataFrame 与 json 的契合度很高,另一方面,如果我们日常的数据清理工作不是很复杂,往往几句简单的代码就可以进行规范。

Pandas 是基于 NumPy 构建的有更高级数据结构和分析能力的工具包。在 NumPy 中数据结构是围绕 ndarray 展开的,Pandas中的数据结构是Series和DataFrame。

Series是一个定长的字典序列,有两个基本属性,index和values,默认使用0,1,2,3.....递增的整数序列,也可以自己制定索引。

DataFrame类型数据结构类似数据库表,包括了行索引和列索引,可以看成由相同索引的Series组成的字典类型。

数据的清洗

删除DataFrame中的行或者列。

重命名列名columns,直接使用 rename(columns=new_names, inplace=True) 函数,

去掉重复值drop_duplicates()

df = df.drop_duplicates() #去除重复行

格式的转换,可以使用astype进行数据的转换

数据中的字符删除,使用strip函数,比如Math列中有*,可以使用如下代码删除

df2['Math']=df2['Chinese'].str.strip('*')

大小写的转换,upper()、lower()、title()

查找空值使用df.isnull()

数据统计

count()统计个数,但不计算空值。

describe()统计描述

min(),最小值、max()最大值、sum()求和、mean()平均值、median()中位数、var()方差、std()标准差

返回极值的索引位置

argmin()统计最小值的索引位置

argmax()统计最大值的索引位置

idxmin()统计最小值的索引值

idxmax()统计最大值的索引值

数据合并,merge()

基于指定列的连接

inner内链接,left,左连接,right右连接,outer外连接

Pandas除了可以直接导入csv和xlsx,文件外还可以实现对数据库的操作和查看。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201211A0A5V500?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券