导读
Excel作为Office常用办公软件之一,其在一名数据分析师的工作日常中也占有一定地位,比如个人就常常倾向于依赖Excel完成简单的数据处理和可视化作图,其中数据处理部分则主要是运用内置函数+数据透视表两大部分。
Excel数据透视表虽好,但在pandas面前它也有其不香的一面!
01 何为透视表
数据透视表,顾名思义,就是通过对数据执行一定的"透视",完成对复杂数据的分析统计功能,常常伴随降维的效果。例如在Excel工具栏数据透视表选项卡中通过悬浮鼠标可以看到这样的描述:
具体而言,以经典的泰坦尼克号数据集(github下载地址为 https://github.com/hitcszq/kaggle_titanic)为例,想要探索不同性别(Sex)和不同舱位等级(Embarked)下生存人数(Survived),那么仅需如下3步操作即可:
至此,我们可以发现数据透视表中实际存在4个重要的设置项:
值得指出的是,以上4个要素每一个都可以不唯一,例如可以拖动多个字段到行/列字段中形成二级索引,也可完成对不同字段的统计,以及拖动相同字段设置不同统计方法实现多种聚合。
02 利用pd.pivot_table实现
Pandas作为Python数据分析的瑞士军刀,实现个数据透视表自然不在话下,其接口函数为pivot_table,给出其核心参数如下:
其中前4个参数是核心参数。
仍以titanic数据集为例,应用pivot_table完成前述数据透视表操作,默认情况下只需如下调用:
如果既需要统计不同性别各舱位下的生存人数(对应Survived=1),又想统计生存率(生存人数与该分组下总人数的比例),那么仅需在传入aggfunc参数时增加一个mean聚合函数即可:
更进一步地,如果需要增加行和列的小计统计,则可通过传入margins和margins_name参数:
最后,为了测试fill_value字段效果,以SibSp字段(同舱内亲友数量)作为行索引,得到初始透视表如下:
其中,当行索引和列索引对应的具体分组下的记录数为0时,得到的聚合结果为NaN,此时可通过指定fill_value参数来进一步填充,即:
实际上,上述效果就相当于执行完pivot_table的基础上再加一个fillna()函数即可。
03 pivot_table与pivot
pivot与pivot_table都含有pivot一词,所以功能上也有一定的相近之处。这里,理解pivot的含义主要在于变形,更确切的说是将一个长表整形为宽表,例如SQL中的经典场景列转行,表述的就是这个问题。那么二者的主要区别在于: