pandas是贯穿基础数据分析的重要库,它包含的数据结构和数据处理工具的设计使得在数据清洗和分析非常快捷;并且pandas也可用来处理pandas数据,为后续制图提供规范化的数据结构。
1、pandas数据结构介绍
pandas包括两个数据结构——Series和DataFrame,这两个数据结构十分重要,灵活运用两种数据结构的特性和属性十分重要。
(1)Series对象
Series是一个一维数组对象,包含一个值序列和索引序列。它有两个十分常用的属性:values和index,values获取值对象,index获取索引对象。
Series的创建方式:1、创建时指定索引;2、创建时不指定索引;3、字典生成Series对象。当创建时不指定索引会自动生成int类型的索引。
(2)Series的基础操作
2.1 过滤、相乘和数学函数
对Series对象使用简单的过滤、相乘和应用数学函数,可以对Series对象进行批量操作,并且保存索引值链接。
2.2 重建索引、改变索引顺序
在DataFrame和Series中,重建索引和改变索引顺序是重要的一个操作;示例如下:
2.3 检查缺失数据
一般通过isnull和notnull检查缺失数据。
2.4 series对象的相加和name属性
series的加和操作与数据库的加和很像,当其中有一个值为缺失值时,加和的结果就是缺失值。Series对象自身和其索引都有name属性,这个特性与pandas其它重要功能集成在一起(我在数据分析中并不怎么用到,以后如果有用到会再发一篇文章)。
本文分享自 python数据可视化之美 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!