sum(Field1) as Field1, avg(Field1) as avg_field1, min(field2) as min_field2group by mykeygrouped = df.groupby('mykey')grouped.mean()
会计算所有字段的平均值。然而,我需要在不同的列上使用不同的聚合函数:在一些列上根本没有聚合函数,在其他列
通常,一个组中的所有行都被传递给一个聚合函数。我想使用一个条件来筛选行,以便只将组中的一些行传递给聚合函数。使用可以进行这样的操作。我想用Spark SQL DataFrame (Spark 2.0.0)做同样的事情。. // some data frame max("B").where("B"