In [1]: from pyspark.sql.functions import rand, randn
In [2]: # 创建一个包含1列10行的DataFrame....可以使用describe函数来返回一个DataFrame, 其中会包含非空项目数, 平均值, 标准偏差以及每个数字列的最小值和最大值等信息...., 你当然也可以使用DataFrame上的常规选择功能来控制描述性统计信息列表和应用的列:
In [5]: from pyspark.sql.functions import mean, min, max..., 而两个随机生成的列则具有较低的相关值..
4.交叉表(列联表)
交叉表提供了一组变量的频率分布表....列联表是统计学中的一个强大的工具, 用于观察变量的统计显着性(或独立性). 在Spark 1.4中, 用户将能够将DataFrame的两列进行交叉以获得在这些列中观察到的不同对的计数.