1 聚合函数
pandas中也有很多的聚合函数,我们以DataFrame类型的数据集为例:
如果要求均值,可以用mean函数:
默认对axis=0轴方向进行聚合,如果想在水平方向进行聚合,可以指定轴:
此外,还有一个describe方法可以列出一些常用的统计值,还是用上面的例子:
可以看到,有计数、均值、标准差、最大最小值、四分位数等指标。
2 groupby
groupby分组的核心理念就是分割、应用、再组合。分割,把原数据按某一类别按组分开;应用,对每一组进行函数应用;组合,将函数返回的结果组合再一起。这就是groupby工作的全过程。我们来举个例子:
我们现在有数据集df1,现在按m列进行分组求和:
我们还可以选取单列进行聚合操作:
如上图,现在我们还是按m列来分组,但是只想选取p列来进行求和:
此外,如果想对各列运行多个聚合函数,可以使用aggregate:
但如果我们想对不同的列应用不同的函数,可以用字典的方式指定:
我们还可以对分组结果进行过滤,也就是筛选出我们需要的组,用filter函数可以实现:
上图中,我们先定义了一个函数,然后在filter()中调用这个函数,则可以将分组后的和大于5的数据保留。a组n列中的和小于5,所以被过滤掉。
此外,我们还可以用transform对原数据进行函数运算,生成新的数据。常见的主要有数据标准化操作:
我们也可以用apply()在组上应用各种方法:
此外,还有多种的分组方法。这里介绍一种将列表、索引、数组或者Series来进行分组的方法:
这就是今天的全部内容,下次再会。
领取专属 10元无门槛券
私享最新 技术干货