业界还提出了一种基于矩阵分解和用户近邻模型的算法,解决了数据稀疏的问题,但存在模型过拟合的问题。而协同过滤提出了一种支持不完整评分矩阵的矩阵分解方法,不用对评分矩阵进行估值填充,有很好的推荐精度。...一个典型的模型将每个用户uuu(包含一个用户-因素向量uiuiu_i)和每个商品vvv(包含一个用户-因素向量vjvjv_j)联系起来。...假设现在我们有一个测试集特征向量A和一个训练集的特征向量B:
A:[1, 2, 2, 1, 1, 1, 0]
B:[1, 2, 2, 1, 1, 2, 1]
到这里,问题就变成了如何计算这两个向量的相似程度...设计接口的一个关键问题就是,如何表示RDD之间的依赖。...所以,parent RDD 和 child RDD 之间是窄依赖,不需要昂贵的shuffle,各个partition的任务可以并行执行。
5.