我们在Apache Spark 1.3版本中引入了DataFrame功能, 使得Apache Spark更容易用....可以使用describe函数来返回一个DataFrame, 其中会包含非空项目数, 平均值, 标准偏差以及每个数字列的最小值和最大值等信息....列联表是统计学中的一个强大的工具, 用于观察变量的统计显着性(或独立性). 在Spark 1.4中, 用户将能够将DataFrame的两列进行交叉以获得在这些列中观察到的不同对的计数....5.出现次数多的项目
找出每列中哪些项目频繁出现, 这对理解数据集非常有用. 在Spark 1.4中, 用户将能够使用DataFrame找到一组列的频繁项目...., 下面的代码找到每个列显示出现次数占总的40%以上频繁项目:
In [4]: freq.collect()[0]
Out[4]: Row(a_freqItems=[11, 1], b_freqItems