Python数据分析入门日记Day6
——Pandas:Series和Dataframe
从今天起,开始学习Python中另一个经常用到的库——Pandas,Pandas作为数据分析库在日常的数据分析工作中起到重要作用,是一个基于Numpy的、处理数据较为专业的库。因此在使用Pandas这个库之前需要导入Numpy。
1、Series
Pandas中有两种基本的数据结构,分别是Series和DataFrame,即数列和数据框,当然,Python中所涉及到的其它数据类型在Pandas库中也是适用的。只不过这两种数据结构让对数据的分析和操作变得更简单。
(1)创建Series
Series可以说是相当于一个序列,跟之前学到的列表数据类型相似,比如说有一系列元素,每一个元素都对应一个索引值。Series在表面上的不同之处应该在于,它输出的是一个“竖起来的列表”。可以看一下Series序列的创建:
一维数组创建的Series:
很明显,输出结果是一个“竖起来的列表”,其中,第一列为索引值,第二列为列表中的元素。查看数据类型,利用type,输出结果为Series序列形式:
(2)通过字典创建序列
首先,创建一个新字典dict1:
用pd.series函数将其转化为一个序列s2:
如果要索引序列中的第一个元素,可以通过以下两种方法:
利用type()查看数据类型,可以看到返回的数据类型为序列。
2、Dataframe
(1)Dataframe可以用二维数组进行创建,首先,创建一个二维数组arr2。
(2)将新创建的二维数组转化为数据框。并查看数据类型,发现已经转化成了Dataframe的形式。
(3)通过字典创建Dataframe
通过两种不同的字典来创建Dataframe,第一种是字典列表,第二种是嵌套字典。那么,什么是字典列表?什么事嵌套字典呢?
首先,定义一个新字典dict2,键为“a、b、c、d”,值为“[1、2、3、4]、[5、6、7、8]、[9、10、11、12]、[13、14、15、16]”,输出结果:
利用pd.Dataframe()函数,将其转化成数据框。
查看数据类型,此时已经转化成了数据框形式。
利用嵌套字典创建Dataframe,首先创建一个新的嵌套字典dict3。
可以看出,输出的字典dict3中,内层的键是“a、b、c、d”,所对应的值是“[1、2、3、4]、[5、6、7、8]、[9、10、11、12]”,外层的键是“one、two、three”,因此构成了一个双层的嵌套字典。转化数据形式:
从输出结果来看,嵌套字典中外层的键作为列索引,内层的键成为了行索引。通常每一列对应的索引为变量名称,每一行的行名称就是索引。
3、用Dataframe来创建Dataframe
通过已经创建好的数据框df3中的内容来创建一个新的数据框df4,比如:提取df3中的第1列和第3列,创建出新的数据框df4。
查看数据类型:
数据框df4中的数据类型为DataFrame。
注意:若从数据框df3中提取某一列,发现返回的是一个Series序列形式:
换句话说,这种方法是在用DataFrame来创建一个Series。
4、外部导入数据
若想要从外部导入一个Excel文件,需利用pd.read_excel()函数,在括号中输入Excel文件的绝对路径,将“\”改为“/”后跟文件名,然后用.head()函数查看数据集的前五行,具体操作如下:
若想要读取格式为csv的文件,只需将Excel改为csv即可。
看到这里,一定想起在R语言的学习中也有类似的读取文件形式。只要不断学习,知识就会慢慢积累,就能做到触类旁通了。今天关于数据分析库中Serie和Dataframe的一些创建及用法的日记就到这里,另外,感谢大家五天以来的支持与陪伴,我也会再接再厉。最后,如果您有什么好的意见或建议,欢迎指点!
Ovaltine
领取专属 10元无门槛券
私享最新 技术干货