首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >一个恰当的向量相似度指标

一个恰当的向量相似度指标
EN

Stack Overflow用户
提问于 2012-01-06 10:14:46
回答 1查看 1.3K关注 0票数 1

我正在尝试调整余弦相似度,以确定两个向量相对于条目的相似度。由于所获得的度量在向量尺度{(0,1,2)和(0,2,4)具有余弦相似度1}下是不变的,那么扩展相似性度量以说明初始向量尺度的方法是什么?我想乘以min{|v1|,|v2|}/max{|v1|,|v2|},其中|v|表示向量v范数,以保持-1和1的界限。任何建议都是非常感谢的。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-01-06 11:08:17

嗯,余弦相似度是基于两个向量之间的角度(而不是依赖于向量的长度)。如果你需要一些东西来考虑向量的长度,那么你需要考虑向量长度如何影响上下文中的相似性。

还要注意,如果需要保持在特定的边界内(如[-1, 1]),您始终可以对相似性或距离度量进行后处理。用于执行此类转换的一个流行函数是arctan

例如,您可以使用适当的变换来尝试欧几里德距离,而不是扩展余弦相似度:

代码语言:javascript
运行
AI代码解释
复制
d = Euclidean distance between your vectors
similarity =  1 - 2 * arctan(d) / (pi/2) 

但正如我所说的,“正确的”公式取决于你的上下文。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8756258

复制
相关文章
计算向量间相似度的常用方法
计算化学中有时会要求我们计算两个向量的相似度,如做聚类分析时需要计算两个向量的距离,用分子指纹来判断两个化合物的相似程度,用夹角余弦判断两个描述符的相似程度等。计算向量间相似度的方法有很多种,本文将简单介绍一些常用的方法。这些方法相关的代码已经提交到github仓库
用户7592569
2020/07/27
33K0
计算向量间相似度的常用方法
从EMD、WMD、WRD:文本向量序列的相似度计算
在NLP中,我们经常要比较两个句子的相似度,其标准方法是将句子编码为固定大小的向量,然后用某种几何距离(欧氏距离、cos距离等)作为相似度。这种方案相对来说比较简单,而且检索起来比较快速,一定程度上能满足工程需求
mathor
2021/05/27
2.4K0
从EMD、WMD、WRD:文本向量序列的相似度计算
pta集合相似度_结构相似度
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/168948.html原文链接:https://javaforall.cn
全栈程序员站长
2022/09/22
6880
文本相似度 | 余弦相似度思想
我一直觉得,在数据分析领域,只有文本分析是最“接地气儿”的,“接地气儿”不是指最简单,而是我们普通大众的使用它最多。 我们每天使用互联网,但不一定每个人都炒股,不一定都做行业研究,也不一定都搞科研,因此那些高大上的模型对大部分人来说都是飘忽在天上的,只有文本分析,他的产出结果是直接惠及到几乎全部人。 比如,你总得打字,会使用到输入法的模糊匹配;你总得网购,刷新页面的时候就会看到某宝给你推荐的产品;你总得看新闻,APP会根据你以往的输入给你推荐文章...... 文本分析最基本的可以看正则表达式,我曾经写过S
数说君
2018/04/08
2.8K0
文本相似度 | 余弦相似度思想
图像处理-评价指标-PSNR峰值信噪比和SSIM结构相似度
psnr是“Peak Signal to Noise Ratio”的缩写,即峰值信噪比,是一种评价图像的客观标准。 为了衡量经过处理后的影像品质,我们通常会参考 PSNR值来衡量某个处理程序能否令人满意。PSNR的单位是dB,数值越大表示失真越小。n为每像素的比特数,一般的灰度图像取8,即像素灰阶数为256。它是原图像与被处理图像之间的均方误差相对于 (2n-1)2的对数值(信号最大值的平方,n是每个采样值的比特数),所以PSNR值越大,就代表失真越少。 MATLAB用法的公式如下:
AomanHao
2022/01/14
6.1K0
图像处理-评价指标-PSNR峰值信噪比和SSIM结构相似度
计算相似度
在机器学习中,经常要度量两个对象的相似度,例如k-最近邻算法,即通过度量数据的相似度而进行分类。在无监督学习中,K-Means算法是一种聚类算法,它通过欧几里得距离计算指定的数据点与聚类中心的距离。在推荐系统中,也会用到相似度的计算(当然还有其他方面的度量)。
老齐
2021/03/11
4.3K0
计算相似度
余弦相似度与欧氏距离相似度(比较记录)
余弦相似度衡量的是维度间取值方向的一致性,注重维度之间的差异,不注重数值上的差异,而欧氏度量的正是数值上的差异性。
海涛
2020/06/04
3.2K0
[文本语义相似] 基于Jaccard相似度
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像 对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍 基于Jaccard相似度。
MachineLP
2020/05/08
1.2K0
文本相似度计算_文本相似度分析算法
一. Simhash 计算文档相似度的算法, 比如用在搜索引擎的爬虫系统中,收录重复的网页是毫无意义的,只会造成存储和计算资源的浪费。有时候我们需要处理类似的文档,比如新闻,很多不同新闻网的新闻内容十分相近,标题略有相似。如此问题,便可以应用Simhash 文档相似度算法,查看两篇文档相似程度,删去相似度高的web文档。
全栈程序员站长
2022/11/15
1.5K0
文本相似度计算_文本相似度分析算法
ES搜索相似度
比如上面的hello在在doc1出现了1次,会根据出现的次数给个分数,一个term在doc中出现的次数越多,分数就越高
小土豆Yuki
2022/06/24
1.1K0
[文本语义相似] 基于simhash相似度
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像 对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍 基于simhash相似度。
MachineLP
2020/05/08
1.2K0
句子相似度计算
Word2Vec将词映射为一个词向量,在这个向量空间中,语义相似的词之间距离会比较小,而词移距离(WMD)正是基于word2vec的这一特性开发出来的。 两个文档中的任意两个词所对应的词向量求欧氏距离然后再加权求和
DC童生
2019/07/11
2.5K0
句子相似度计算
06:图像相似度
06:图像相似度 总时间限制: 1000ms 内存限制: 65536kB描述 给出两幅相同大小的黑白图像(用0-1矩阵)表示,求它们的相似度。 说明:若两幅图像在相同位置上的像素点颜色相同,则称它们在该位置具有相同的像素点。两幅图像的相似度定义为相同像素点数占总像素点数的百分比。 输入第一行包含两个整数m和n,表示图像的行数和列数,中间用单个空格隔开。1 <= m <= 100, 1 <= n <= 100。 之后m行,每行n个整数0或1,表示第一幅黑白图像上各像素点的颜色。相邻两个数之间用单个空格隔
attack
2018/04/03
2.7K0
相似度度量标准之Jaccard相似度
Jaccard相似度(杰卡德相似度)是一个用于衡量两个集合相似程度的度量标准,他的定义如下:给定两个集合 ,那么我们记这两个集合的Jaccard相似度 为:
mythsman
2022/11/14
3.4K0
图片大小的相似度
比如原图是正方形,目标有很多图。找出最像正方形的图。 代码: def get_similar_size(sources, dsts): """ 输入sources,返回dsts中对应size接近的列表。其中 len(dsts) >= len(sources) 数据类型: source: ["270*180", "25*45", "45*45", "45*45"] dst要保证有id,size属性。 用例: source:["270*180", "2
超级大猪
2019/11/22
1.6K0
文本相似度计算
BM25(i) = \frac{词i的数量}{总词数}\frac{(k+1)C}{C+k(1-b+b\frac{|d|}{avdl})}log(\frac{总文档数}{包含i的文档数}) \C = tf=\frac{词i的数量}{总词数},k>0,b\in [0,1],d为文档i的长度,avdl是文档平均长度
luxuantao
2021/02/24
2.8K0
相似度实践问题小记
前段时间做了一个表情搜索的评测,用到了相似度评测,在实践过程中遇到了一个问题,在这里和大家分享下。
用户5521279
2020/02/24
6390
句子相似度的计算 | NLP基础
自然语言处理的终极目标是让计算机理解人类所使用的语言。但是由于人类语言的多样性,语义的多样性等原因使得这一目标复杂度极高,目前还无法直接建模和解决。
叶锦鲤
2019/12/26
3.4K0
PTA-集合相似度[通俗易懂]
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/168979.html原文链接:https://javaforall.cn
全栈程序员站长
2022/09/22
3310
基于相似度计算的本体映射
哈哈 内容不能为空!那就写几个字嘚瑟下。。。
Coder的技术之路
2021/05/14
6060
基于相似度计算的本体映射

相似问题

字向量相似度精度

15

基于相似度的向量系数

11

基于矩阵的TS SS向量相似度

10

稀疏向量上的加权余弦相似度

11

创建给定余弦相似度的随机向量

248
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档