导读
pandas作为Python数据分析的瑞士军刀,集成了大量实用的功能接口,基本可以实现数据分析一站式处理。前期,笔者完成了一篇pandas系统入门教程,也针对几个常用的分组统计接口进行了介绍,今天再针对groupby分组聚合操作进行拓展讲解。

groupby是pandas中用于数据分析的一个重要功能,其功能与SQL中的分组操作类似,但功能却更为强大。理解groupby的原理可参考官网给出的解释:

其中:
groupby首先要指定分组原则,这也是groupby函数的第一步,其常用参数包括:
另有其他参数,但很少用到不再列出。给出几个典型应用示例:

示例数据




分组之后的第二个步骤即为分组转换操作,也就是应用(apply)一定的函数得到相应的结果。常用的执行操作方式有4种:
例如需要对如上数据表中两门课程分别统计平均分和最低分,则可用列表形式传参如下:

如果想对语文课求平均分和最低分,而数学课求平均分和最高分,则可用字典形式参数:

这里apply函数实际上是一个应用非常广泛的转换函数,例如面向series对象,apply函数的处理粒度是series的每个元素(标量);面向dataframe对象,apply函数的处理粒度是dataframe的一行或一列(series对象);而现在面向groupby后的group对象,其处理粒度则是一个分组(dataframe对象)。例如,需要计算每个班级语文平均分与数学平均分之差,则用apply会是一个理想的选择:

例如,想对比个人成绩与班级平均分,则如下操作会是首选:

当然,这一操作也可以通过mean聚合+merge连接实现:

实际上,pandas中几乎所有需求都存在不止一种实现方式!
04 时间序列的groupby——resample
再次指出,groupby相当于是按照某一规则对数据进行分组聚合,当分组的规则是时间序列时,还存在另一种特殊的分组方式——重采样resample。理解groupby的split-apply-combine三步走处理流程,那么自然也很容易理解resample处理流程:按照时间split——apply——combine。同时,也正因为resample是一种特殊的分组聚合,所以groupby的4种转换操作自然也都适用于resample。
生成以下含有时间序列的样例数据:

需统计每15天的平均分数,用resample可实现如下:

当然,这是直接用了聚合函数,更复杂的例如agg、apply和transform等用法也是一样的。换句话说,resample与groupby的核心区别仅在于split阶段:前者按照时间间隔进行分组,而后者是按照定义的某种规则进行分组。
另外,还可将groupby与resample链式使用,但仅可以是resample在groupby之后,反之则会报错。例如:

需要指出,resample等价于groupby操作一般是指下采样过程;同时,resample也支持上采样,此时需设置一定规则进行插值填充。