Python数据分析入门日记Day6：数据分析库Pandas：Series和Dataframe

文章来源：企鹅号 - 西京统协

Python数据分析入门日记Day6

——Pandas:Series和Dataframe

从今天起，开始学习Python中另一个经常用到的库——Pandas，Pandas作为数据分析库在日常的数据分析工作中起到重要作用，是一个基于Numpy的、处理数据较为专业的库。因此在使用Pandas这个库之前需要导入Numpy。

1、Series

Pandas中有两种基本的数据结构，分别是Series和DataFrame，即数列和数据框，当然，Python中所涉及到的其它数据类型在Pandas库中也是适用的。只不过这两种数据结构让对数据的分析和操作变得更简单。

（1）创建Series

Series可以说是相当于一个序列，跟之前学到的列表数据类型相似，比如说有一系列元素，每一个元素都对应一个索引值。Series在表面上的不同之处应该在于，它输出的是一个“竖起来的列表”。可以看一下Series序列的创建：

一维数组创建的Series：

很明显，输出结果是一个“竖起来的列表”，其中，第一列为索引值，第二列为列表中的元素。查看数据类型，利用type，输出结果为Series序列形式：

（2）通过字典创建序列

首先，创建一个新字典dict1：

用pd.series函数将其转化为一个序列s2：

如果要索引序列中的第一个元素，可以通过以下两种方法：

利用type()查看数据类型，可以看到返回的数据类型为序列。

2、Dataframe

（1）Dataframe可以用二维数组进行创建，首先，创建一个二维数组arr2。

（2）将新创建的二维数组转化为数据框。并查看数据类型，发现已经转化成了Dataframe的形式。

（3）通过字典创建Dataframe

通过两种不同的字典来创建Dataframe，第一种是字典列表，第二种是嵌套字典。那么，什么是字典列表？什么事嵌套字典呢？

首先，定义一个新字典dict2，键为“a、b、c、d”，值为“[1、2、3、4]、[5、6、7、8]、[9、10、11、12]、[13、14、15、16]”，输出结果：

利用pd.Dataframe()函数，将其转化成数据框。

查看数据类型，此时已经转化成了数据框形式。

利用嵌套字典创建Dataframe，首先创建一个新的嵌套字典dict3。

可以看出，输出的字典dict3中，内层的键是“a、b、c、d”，所对应的值是“[1、2、3、4]、[5、6、7、8]、[9、10、11、12]”，外层的键是“one、two、three”，因此构成了一个双层的嵌套字典。转化数据形式：

从输出结果来看，嵌套字典中外层的键作为列索引，内层的键成为了行索引。通常每一列对应的索引为变量名称，每一行的行名称就是索引。

3、用Dataframe来创建Dataframe

通过已经创建好的数据框df3中的内容来创建一个新的数据框df4，比如：提取df3中的第1列和第3列，创建出新的数据框df4。

查看数据类型：

数据框df4中的数据类型为DataFrame。

注意：若从数据框df3中提取某一列，发现返回的是一个Series序列形式：

换句话说，这种方法是在用DataFrame来创建一个Series。

4、外部导入数据

若想要从外部导入一个Excel文件，需利用pd.read_excel()函数，在括号中输入Excel文件的绝对路径，将“\”改为“/”后跟文件名，然后用.head()函数查看数据集的前五行，具体操作如下：

若想要读取格式为csv的文件，只需将Excel改为csv即可。

看到这里，一定想起在R语言的学习中也有类似的读取文件形式。只要不断学习，知识就会慢慢积累，就能做到触类旁通了。今天关于数据分析库中Serie和Dataframe的一些创建及用法的日记就到这里，另外，感谢大家五天以来的支持与陪伴，我也会再接再厉。最后，如果您有什么好的意见或建议，欢迎指点！

Ovaltine

相关快讯