这样的表(每一种产品的评分按列排列,每一位用户的评分按行排列)被称为效用矩阵。空格表示某些用户未对某些电影进行评分。
图1:一个实用矩阵,捕获四个用户对七部电影的评分。每一种电影的评分按列排列。...与观众A,B和C对应的向量为:
A=[4,0,0,5, 1,0,0]
B=[5,5,4,0,0,0,0]
C=[0,0,0,2,4,5, 0] ....例如,观众B对所有哈利.波特电影都给予了很高的评分,而观众C对“星球大战1”和“星球大战2”给予了很高的评价,可以通过将规则四舍五入来消除评分的相似性。...例如,我们可以设置一个规则,将评分3、4和5舍入为1,并将等级1和2视为空白。应用此规则后,我们的效用矩阵变为:
在评分舍入的情况下,观众A和C对应的集合的交集为空集合。...请注意,当使用原始用户评分来计算距离时,Jaccard距离度量无法提供这种对用户行为的了解。找到具有舍入值的余弦距离会得出相同的结论。
标准化评级
转换原始观众评分的另一种方法是对其进行标准化。