函数对每个元素进行计算, 结果相同的值被分到一组, 返回 (K, V[])
groupByKey 根据数据的 key 进行编组. 在一个 (K, V) 的数据集上, 返回 (K, V[]) 的结果....可自定义分区函数与排序函数
glom 将每个分区的元素合并为一个列表
结果的获取操作
用于从已经处理过的数据集中取出结果....与reduce的区别是, 这个函数有个初始值
aggregate 将所有元素合并为一个元素. 在合并过程中可以携带自定义信息. 合并前后的数据类型可以不一样. ...参数见: aggregateByKey
「获取结果」
collect 将结果中的数据作为数组返回....统计每一个 key 的数量, 返回结果如: (K, 2)
countApproxDistinct 统计数据集中去重的元素个数, 根据精度不同, 其准确度不一定, 此方法返回的是一个大致的值.
max 结果中的最大值