In [1]: from pyspark.sql.functions import rand, randn
In [2]: # 创建一个包含1列10行的DataFrame...., 你当然也可以使用DataFrame上的常规选择功能来控制描述性统计信息列表和应用的列:
In [5]: from pyspark.sql.functions import mean, min, max...DataFrame的两列的样本协方差可以通过如下方法计算:
In [1]: from pyspark.sql.functions import rand
In [2]: df = sqlContext.range...列联表是统计学中的一个强大的工具, 用于观察变量的统计显着性(或独立性). 在Spark 1.4中, 用户将能够将DataFrame的两列进行交叉以获得在这些列中观察到的不同对的计数....对于采用两个参数作为输入的函数, 例如pow(x, y)(计算x的y次幂), hypot(x, y)(计算直角三角形的斜边长), 两个独立的列或者列的组合都可以作为输入参数.