可以使用describe函数来返回一个DataFrame, 其中会包含非空项目数, 平均值, 标准偏差以及每个数字列的最小值和最大值等信息...., 你当然也可以使用DataFrame上的常规选择功能来控制描述性统计信息列表和应用的列:
In [5]: from pyspark.sql.functions import mean, min, max...DataFrame的两列的样本协方差可以通过如下方法计算:
In [1]: from pyspark.sql.functions import rand
In [2]: df = sqlContext.range...你还可以通过使用struct函数创建一个组合列来查找列组合的频繁项目:
In [5]: from pyspark.sql.functions import struct
In [6]: freq =...对于采用两个参数作为输入的函数, 例如pow(x, y)(计算x的y次幂), hypot(x, y)(计算直角三角形的斜边长), 两个独立的列或者列的组合都可以作为输入参数.