我们在Apache Spark 1.3版本中引入了DataFrame功能, 使得Apache Spark更容易用....5.出现次数多的项目
找出每列中哪些项目频繁出现, 这对理解数据集非常有用. 在Spark 1.4中, 用户将能够使用DataFrame找到一组列的频繁项目....我们已经实现了Karp等人提出的单通道算法. 这是一种快速的近似算法, 总是返回出现在用户指定的最小比例的行中的所有频繁项目. 请注意, 结果可能包含错误信息, 即出现了不频繁出现的项目....Python, Scala和Java中提供, 在Spark 1.4中也同样会提供, 此版本将在未来几天发布....如果你不能等待, 你也可以自己从1.4版本分支中构建Spark: https://github.com/apache/spark/tree/branch-1.4 通过与Spark MLlib更好的集成,