继续介绍pandas的一些操作。
1 Series的数据选择
我们首先来创建一个Series对象:
通过其索引即可选取对应的值:
将其看作字典时,可用keys方法查看其索引:
也可用values查看其值:
还可以用items查看索引和值的配对:
如果想扩展Series,直接添加索引和值就好:
接下来我们关注Series对象的切片如何通过索引来选择,首先我们当然可以用索引名称来进行选取:
其次我们也可以通过隐式的整数索引来选取:
这里需要注意的是,显式索引(也就是索引名称)是左右两边都包括的,而隐式索引,是含左不含右的。
我们还可以通过一些表达式来筛选出我们需要的数据:
也可以选出不连续的值:
但是,上述的一些索引方法会出现一些误解,比如索引名称正好为整数:
此时,索引取值为显式,而切片为隐式:
由于上述情况很容易混淆,所以Python提供了一些索引器属性来方便操作。
首先是loc,它表示取值和切片都为显示索引,也就是只关注索引的名称:
其次是iloc,它表示取值和切片都为隐式索引:
最后是ix,它是上面两种显式和隐式索引的混合表示,一般不建议使用,因为很容易产生误解。
2 DataFrame的数据选择
首先我们还是建立一个DataFrame:
将其看作字典时,我们可以通过列名来选取对应列的值:
还可以通过属性的方式获取某一列:
当需要添加列时,可以根据字典的语法进行操作:
这里我们将m、n两列的均值作为了第三列p。
将df看作二维数组时,可以通过values属性来查看值:
还可进行行列转置:
当然,我们也可以通过索引器对df进行切片:
如上图,可以用loc、iloc及ix进行索引,但为避免混淆,一般不用ix来进行混合索引。
今天就先介绍到这里,下次再会。
领取专属 10元无门槛券
私享最新 技术干货