不过, Scala和Java也有类似的API.
1.随机数据生成
随机数据生成对于测试现有算法和实现随机算法(如随机投影)非常有用....列联表是统计学中的一个强大的工具, 用于观察变量的统计显着性(或独立性). 在Spark 1.4中, 用户将能够将DataFrame的两列进行交叉以获得在这些列中观察到的不同对的计数....下面是一个如何使用交叉表来获取列联表的例子....输入需要是一个参数的column函数, 有cos, sin, floor(向下取整), ceil(向上取整)等函数....Python, Scala和Java中提供, 在Spark 1.4中也同样会提供, 此版本将在未来几天发布.