当我使用余弦相似度时，为什么我得到的邓恩指数是负值？

文章/答案/技术大牛

发布

1回答

、、、

我使用k-means对归一化数据进行聚类。我使用了不同的相似度矩阵，如欧几里得、曼哈顿和余弦，当我使用余弦相似度时，Dunn指数为负值。我读到过邓恩指数的取值范围从0到无穷大。使用余弦<

浏览 94提问于2019-06-12得票数 1

回答已采纳

1回答

如何确定k-means聚类算法的精度

我正在使用k-means聚类对未标记的数据执行无监督学习。我没有任何me.How可用的训练数据来衡量算法的准确性?如何验证我获得的结果？

浏览 1提问于2019-03-27得票数 0

1回答

关于word2vec most_similar()函数

、、

我使用如下的most_similar()方法来获取与给定单词相似的所有单词：AFAIK，它的作用是计算给定单词和字典中所有其他单词之间的余弦相似度。当我检查单词和分数时，我可以看到列表中有负分数的单词。这是什么意思？它们是<

浏览 2提问于2016-01-19得票数 5

1回答

句子嵌入之间的余弦相似性总是正的。

、、

我有一份文件清单，我正在寻找( a)副本；( b)非常相似的文件。为此，我将采取以下行动：计算向量嵌入之间的余弦相似度(下面的代码)。我得到的所有余弦相似值都在0到1之间，为什么呢？我不应该也有负值因为相似值吗？句子嵌入既有积极

浏览 0提问于2021-09-07得票数 4

回答已采纳

1回答

欧几里德与余弦相似

、、、、

我有一个文本数据集，我用tfidf技术矢量化，现在为了进行聚类分析，我正在测量这些向量表示之间的距离。我发现一种常用的方法是用余弦相似度来度量距离，当我问为什么不使用欧氏距离时，通常的回答是，当向量的大小不同时，余弦相似性更好。由于我的文本

浏览 0提问于2018-04-11得票数 2

回答已采纳

1回答

仅对于匹配的文档，与Lucene的余弦相似性

、、、

这是正确的吗？如果您确实需要文档之间的余弦相似性，

浏览 5提问于2015-09-07得票数 1

回答已采纳

1回答

利用余弦相似度对文档进行分类

、、、、

我有一套针对五个不同类别的文件，其中大部分都没有贴上标签，correctly.Objective是用来预测文件上传时的正确类别的，我用余弦相似度和tf -idf来预测文档的类，其中余弦相似度是最大的，到目前为止，我得到了很好的结果，但我真的不确定这条路会有多好。此外，当文件类别被正确标注<em

浏览 1提问于2019-06-11得票数 1

1回答

如何计算TF-IDF

、

我想使用TF-IDF的余弦相似度方法来得到两个单词的语义相似度。首先，我想从wikipedia或word- text中提取这些单词的含义，然后对文本进行预处理并找到TF-IDF。当我在谷歌上搜索这个问题时，我发现为了找到TF-IDF，我们应该有一个训练集和测试集。在我的例子中，哪个是<

浏览 3提问于2012-10-06得票数 1

回答已采纳

1回答

文档相似度的不同方法(LDA、LSA、余弦)

、、、、

我有一组简短的文档(每段1到2段)。我使用了三种不同的文档相似度方法：- tfidf矩阵上的简单余弦相似度-在整个语料库上应用LDA，然后使用LDA模型为每个文档创建向量，然后应用余弦相似度。对整个语料库进行-applying LSA，然后使用LSA模型为每个文档创建向量，然后应用余弦

浏览 20提问于2017-01-06得票数 0

2回答

如何寻找多个词标记的相似性？例：(“美利坚合众国”，“联合王国”)？

、、

我正在使用Gensim计算两个单词之间的余弦相似度。我使用以下斯坦福GLoVE 42B数据集：当我做这个glove_model.similarity("united states of america","warm")时，我得到了KeyError: "Key 'united states of america'

浏览 10提问于2022-05-25得票数 0

1回答

当Word2Vec使用点积相似性进行训练时，为什么还要使用余弦相似性

、、、、

根据我在stackoverflow上找到的几篇文章(例如这个Why does word2Vec use cosine similarity?)，在我们训练了一个word2vec ( CBOW或Skip-gram)模型之后，计算两个词向量之间的余弦相似度是一种常见的做法。然而，这对我来说似乎有点奇怪，因为该模型实际上是用点积作为相似度分数进行训练的。这一点的一个证据

浏览 132提问于2019-01-29得票数 7

3回答

非常大数据集的余弦相似性

、、、

我在计算100维向量大列表之间的余弦相似性时遇到了困难.当我使用from sklearn.metrics.pairwise import cosine_similarity时，我在我的16 GB机器上得到了., 103] 我的最终目标是得到与父向量有很高余弦相似性的<

浏览 0提问于2018-12-20得票数 5

2回答

序列、tf-国防军和余弦相似性

、、、、

我试着用python根据tf-国防军矩阵对一些文档进行聚类。idf = np.log(idf)然后，我使用scipy对这些向量进行聚类： from scipy.cluster

浏览 2提问于2012-12-03得票数 2

回答已采纳

1回答

DeepLearning4J - ParagraphVectors:为什么相似性是负面的？

、、、、

我正在使用DeepLearning4j框架中的ParagraphVector工具。我正在做的是在一组文本文档上训练模型，然后计算这些文档之间的相似度。现在，正如参考页面()所说，该工具用来计算相似度的度量是余弦相似度，它应该包含在0到1之间。但是，对于某些文档对，我得到了负分

浏览 0提问于2016-02-29得票数 0

2回答

使用相同源的余弦相似和完全不同的结果

、、、、

我正在学习单词嵌入和余弦相似性。我的数据是由两组相同的词组成的，但用的是两种不同的语言。我用单词向量的平均值来度量余弦相似度(我认为它应该被称为软余弦相似度)。我用单词向量测量了<

浏览 3提问于2019-07-24得票数 0

回答已采纳

1回答

调整余弦相似度与规则余弦相似度之间的选择

、、

我正在研究一个基于项目的CF，它使用调整后的余弦相似度。我最近增加了一个规则的余弦相似性，我得到了完全不同的结果。现在我的问题是，考虑到我的数据，哪一个更适合？以下是不同相似系数的结果：第1项和第2项的相似</e

浏览 0提问于2016-11-21得票数 2

回答已采纳

0回答

使用Armadillo C++的余弦相似度给出了否定的结果

、、

我已经实现了一个余弦相似函数，它使用c++线性函数库。我的代码是下一个：{ double-0.7056-0.9650 0.2072 -0.1551 0.0426当我</

浏览 1提问于2016-07-11得票数 2

回答已采纳

3回答

Jaccard相似与余弦相似的应用与区别

Jaccard相似度和余弦相似度是比较项目相似性时常用的两种度量方法。然而，在哪种情况下哪一种比另一种更可取，我并不十分清楚。有人能帮助澄清这两种测量方法的差异(概念或原理的差异，而不是定义或计算)及其更好的应用吗？

浏览 0提问于2015-02-12得票数 39

回答已采纳

1回答

编写一个R函数来查找余弦相似度

、

我知道余弦函数可以用来查找存在于R Studio库中的余弦相似度。我试图使用矢量化运算符创建自己的运算符，但我被难住了。我的函数似乎将所有的值相加在一起，然后一次完成对它们的操作，而不是对每个点集执行每个余弦相似度，然后像它应该的那样将它们相加。cossim <- function(A,B) { (sum

浏览 19提问于2021-05-02得票数 0

回答已采纳

2回答

如何在有新向量的预计算矩阵中求余弦相似度？

、、、、

我有一个包含5000项(行)和2048个特性(列)的dataframe。但是现在，如果我有一个新的(1,2048)的向量形状，如何利用我已经计算过的(5000,5000)<e

浏览 7提问于2019-11-26得票数 0

点击加载更多