Python数据分析入门日记Day7
——数据分析库Pandas:索引(index)
通过昨天的学习,发现无论是在Series,还是在Dataframe中的数据,Python中输出时第一列系统都会加入一列由数字表示的索引,以昨天文末读取的数据集为例:
添加索引有两大好处:其一是通过索引或索引标签来获取目标数据,其二就是在对多个序列进行运算时实现自动化对齐。
1、通过索引提取数据
(1)定义一个新的序列s1。
如果不为s1添加指定的索引,系统为其添加0~5、间隔为1的数字索引,因此,通过.index函数查看对应的索引值,发现索引值从0开始,到6结束(由于Python“算头不算尾”),步长为1。
(2)添加索引标签
利用.index函数可以为序列自定义索引值,即修改索引标签,具体操作如下:
发现s1的索引标签发生了改变,变为“a,b,c,d,e,f”。
(3)利用索引提取数据
提取索引值为“4”所对应的元素:
提取索引值为“1,2,5”所对应的元素:
提取索引标签为“a、c、f”的元素:
提取前4个元素:
从序列中间提取某些间隔的元素,比如,从索引标签“b”提取到“e”所对应的元素:
可以看到,当使用索引标签提取元素时,首尾值都被返回了,但之前用索引值提取时,末尾值只能返回到前一位的元素。和之前的对比一下:
这就是序列不同于之前的所说的数组的一方面,所以可以为序列设置索引标签。
2、自动化对齐
如果要对两个序列进行一些运算,如加、减、乘、除等等,此时,索引就会体现它的功能:自动化对齐。
(1)定义两个新的序列s2和s3:
注意,s2和s3中的元素和索引标签都不相同。
(2)将两个序列相加,查看结果:
发现在序列s2中没有出现的索引标签“g”和序列3中没有出现的索引标签“a”在两个序列相加后返回值为“NaN”,说明两个序列进行运算时不仅仅是简单的数字相加减而已,索引标签可以起到自动对齐的作用,相同索引标签下的元素才能够完成运算。
可见Pandas中的索引(index)功能是十分强大的,掌握了索引的本领,将为日后的数据分析工作带来极大的便利。在每日的学习中,发现了序列和数组之间的不同之处,同时也对数据类型有了更清晰的辨识。日记Day7就到这里啦,如果有什么好的意见或建议,记得给我留言哦!非常感谢大家的支持,每天早晨看到用户数的增长,我都由衷开心,期待大家的持续关注!
Ovaltine
领取专属 10元无门槛券
私享最新 技术干货