从较高的层面来说,它提供了以下工具:
ML算法:常见的学习算法,如分类,回归,聚类和协同过滤
特征化:特征提取,转换,降维和选择
管道:用于构建,评估和调整ML管道的工具
持久性:保存和加载算法,模型和管道...公告:基于DataFrame的API是主要的API
基于MLlib RDD的API现在处于维护模式。
从Spark 2.0开始,spark.mllib包中基于RDD的API已进入维护模式。...对于将LogisticRegressionTrainingSummary强制转换为BinaryLogisticRegressionTrainingSummary的用户代码,这是一个重大变化。...(0,1,2,3),Array(0,1,2),Array(1,1,1))
2.4 分布式矩阵
◆ 把一个矩数据分布式存储到多个RDD中
将分布式矩阵进行数据转换需要全局的shuffle函数
最基本的分布式矩阵是...需要通过该対象的方法来获取到具体的值.
3 MLlib与ml
3.1 Spark提供的机器学习算法
◆ 通用算法
分类,回归,聚类等
◆ 特征工程类
降维,转换,选择,特征提取等
◆数学工具
概率统计