温馨提示:加入圈子或者商务合作,请加微信:luqin360
在数据分析和数据挖掘以及搜索引擎中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。...问题定义:有两个对象X,Y,都包含N维特征,X=(x1,x2,x3,……..,xn),Y=(y1,y2,y3,……..,yn),计算X和Y的相似性。常用的有五种方法,如下。...因为计算是基于各维度特征的绝对数值,所以欧氏度量需要保证各维度指标在相同的刻度级别,比如对身高(cm)和体重(kg)两个单位不同的指标使用欧式距离可能使结果失效。
?
代码:
?...相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。
?
代码:
?...对于上面两个对象A和B,我们用Jaccard计算它的相似性,公式如下
?
首先计算出A和B的交(A ∩ B),以及A和B的并 (A ∪ B):
?
然后利用公式进行计算:
?