首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习漫谈(3):空间与距离

(9)夹角余弦,可以衡量样本向量之间的差异。两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的余弦相似度定义为:

夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的相似度越大。当两个向量的方向重合时夹角余弦取最大值1,当两个向量的方向完全相反夹角余弦取最小值-1。

(10)杰卡德相似系数(Jaccard similarity coefficient)

两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。

杰卡德相似系数是衡量两个集合的相似度一种指标。我们还可以取1-J(A,B)作为距离定义,称为杰卡德距离。杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。

(11)皮尔逊系数(Pearson Correlation Coefficient)

在统计学中,皮尔逊积矩相关系数(英语:Pearson product-moment correlation coefficient,又称作 PPMCC或PCCs, 用r表示)用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。定义是:

其中,E为数学期望或均值,D为方差,D开根号为标准差,Cov(X,Y) =E{[X-E(X)] [Y-E(Y)]}称为随机变量X与Y的协方差。

相关系数衡量随机变量X与Y相关程度,取值范围是[-1,1]。相关系数的绝对值越大,则表明X与Y相关度越高(符号表示正相关或者负相关)。

相关距离的定义是:

以上定义了总体相关系数,基于样本对协方差和方差进行估计,进一步计算样本的皮尔逊系数, 一般表示成r:

一种等价表达式是表示成标准分的均值:

其中、和,分别是标准分、样本平均值和样本标准差。

应用皮尔逊相关系数时需要注意:当两个变量的标准差都不为零时,相关系数才有定义。同时,皮尔逊相关系数还要满足(a)两个变量之间是线性关系,都是连续数据;(b)两个变量的总体是正态分布,或接近正态的单峰分布;(c)两个变量的观测值是成对的,每对观测值之间相互独立。

对于上述各种距离,需要根据不同的问题情景选用。欧氏距离是应用最广泛的一种,大多数现实问题都可以用它来表达;曼哈顿距离适用于路径类的距离;对于适用欧氏距离,而又需要考虑不同坐标分量的影响时,标准化欧氏距离是个不错的选择;马氏距离可以排除对量纲的影响;对于编码通讯或者类似的离散问题,汉明距离、杰卡德距离可以根据不同情况选用;而在衡量两个统计变量的相关性时,皮尔逊系数则是很好的工具。

这些距离基本都是从实用的角度考虑的,如果纯粹从数学的角度考虑,有些距离可能等价或者不满足完善的数学定义,但如果在实践问题上有效,仍旧可以应用,只是要特别注意其适用范围。

把机器学习的问题都看成空间中点的关系问题,这种抽象大大简化了问题的性质。并且在绝大多数情况下,都会变成讨论点之间的距离关系问题,因此距离的定义才会如此重要。不同的距离定义,反映了方法选择者对对象的不同分类角度,也就是对空间的不同构造和对空间点不同的分类方法。由此出发,我们会发现分类问题是机器学习的根本性问题。下一讲会专门讨论分类问题。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181231G0YGXR00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券