从tf-idf计算余弦相似度

文章/答案/技术大牛

发布

1回答

如何计算TF-IDF

nlp、tf-idf

我想使用TF-IDF的余弦相似度方法来得到两个单词的语义相似度。首先，我想从wikipedia或word- text中提取这些单词的含义，然后对文本进行预处理并找到TF-IDF。当我在谷歌上搜索这个问题时，我发现为了找到TF-IDF，我们应该有一个训练集和测试集。在我的例子中，哪个是训练集，哪个是测试集？如何使用计算结果计算余弦相似度？

浏览 3提问于2012-10-06得票数 1

回答已采纳

1回答

使用Gensim更新TF-IDF

python、gensim、similarity、tf-idf

您好，我正在使用Gensim来查找文档之间的相似度，因此我对文档进行TF-IDF并计算余弦相似度。当我有新文档时，我可以使用index[tfidfvec]计算这个文档与以前文档的相似度，但是这样TF-IDF不会更新，并且在相似度计算中不考虑新词。有没有什么解决方案可以快速更新TF-IDF而无需重新计算整个矩阵，

浏览 2提问于2018-12-26得票数 2

1回答

如何计算多类型数据的余弦相似度？

similarity、trigonometry、cosine-similarity

我有一个使用余弦相似度的约束。如果变量(属性、列)的类型不同，并以以下形式出现：如何进行矢量化以应用余弦相似度？对于字符串，我可以使用简单的tf-idf。但是对于数字和布尔值呢？如何将这些结合起来呢？我的想法是向量应该是1+1+1+20长度。但是，仅仅将记录的数字转换为矢量中的系数，并将它们与字符串的tf-idf连接以计算余弦</em

浏览 5提问于2013-03-20得票数 1

3回答

如何在python中使用嵌套循环加快计算余弦相似度

python、gensim、cosine-similarity

我试图计算所有值之间的余弦相似度。from gensim import matutils# array_B contains 20,000 TF-IDFvalues for y in array_B:有必要使用gensim软件包来

浏览 3提问于2017-09-18得票数 0

2回答

我可以获得Word2Vec和Doc2Vec矩阵来计算余弦相似度吗？

python、gensim、word2vec、doc2vec

我正在处理文本数据，目前我已经将我的数据放入术语文档矩阵中，并计算出TF，术语频率和TF-IDF，术语频率与文档频率相反。从这里看，我的矩阵如下所示：行名=单词填充了他们的TF和TF-IDF分数。我不清楚我是否有像TF和TF-IDF中那样的词嵌入。我希望使用Word2Vec/Doc2Vec，并获得一个类似于我目前拥有的矩阵，然后计算文档之间的余弦相似度。这是模型的输出之一吗？我基本上有大约6000个文档，我想计算</

浏览 3提问于2019-07-11得票数 0

2回答

计算句子集合之间的语义相似度

nlp、word2vec、tf-idf、cosine-similarity、sentence-similarity

我有两组短消息，我想计算这两组短消息之间的相似度，并根据它们的语义相似度来识别它们是否在谈论相同的子主题。我知道如何使用成对相似度，我的问题是我想计算两个集合中所有句子之间的总体相似度，而不是两个句子的相似度。有没有办法使用tf-idf或带有余弦相似度的word2vec/doc2vec来计算<

浏览 4提问于2019-08-02得票数 0

1回答

java -如何利用文档的tfidf分数实现余弦相似度？*

java、similarity、trigonometry、tf-idf

我已经计算了关键字和所有文档的tf-IDF值。假设我将所有文档的tf-IDF值存储在一个数组中，如何使用它来计算余弦相似度？感谢您对代码的任何帮助！

浏览 1提问于2012-04-23得票数 0

回答已采纳

7回答

给定2个句子串计算余弦相似度

python、string、nlp、similarity、cosine-similarity

在中，可以使用tf-idf余弦计算文档相似度。在不导入外部库的情况下，有没有办法计算两个字符串之间的余弦相似度？

浏览 4提问于2013-03-02得票数 79

回答已采纳

1回答

Lucene中查询和文档的余弦相似度

lucene、similarity、trigonometry、tf-idf

我想要获得一个长查询和一个集合中的文档之间的余弦相似度。我使用Lucence为集合建立索引，并提交查询以检索文档。有人能证实这一点吗？

浏览 0提问于2011-08-29得票数 1

回答已采纳

1回答

python-2.7、pandas、scikit-learn、text-classification、cosine-similarity

在数据帧df中，我具有以下列tf-idf0 {u'selection': 3.83579393163, u'carltons': 7.0...我正在努力寻找两个样本之间的cosine similarity -例如，在df['tf-idf'][

浏览 13提问于2016-09-26得票数 2

回答已采纳

2回答

比较文档-文档相似度

java、nlp、similarity、information-retrieval、tf-idf

我想根据文档(从集合中)找到类似的文档。谢谢你的帮助

浏览 2提问于2015-04-24得票数 0

2回答

在K-Means聚类中使用词干提取

algorithm、k-means、stemming

这是我所做的：我应该在哪里使用词干部分？我是不是应该先计算词干，然后计算词干的tf-idf？使用词干提取不会降低结果吗？

浏览 2提问于2013-07-18得票数 1

1回答

理解两个TF-IDF向量相似的原因

text、scikit-learn、nlp

我想要一些关于理解TF-IDF向量结果的方法的反馈，以及可能的替代方法。现在，我有两个文本语料库。目标是找到每个语料库中的哪些文档最相似。这是一种在TF-IDF中“解释”紧密关系的有效方法吗？我的结果是不错的，但它似乎对非常普通的单词有很大的价值，这很不幸，但对我的任务来说很有说服力。

浏览 2提问于2018-10-27得票数 0

1回答

在Pyspark中查找相关的文档名称

python、pyspark、pyspark-sql

我想在不同的行中找到相似的名字。我已经尝试了余弦相似度，但无法实现这一点。我已经使用pyspark计算了TF-IDF。寻找使用pyspark在不同行中获取相关名称的方法。

浏览 11提问于2018-02-23得票数 0

0回答

TF-IDF和余弦相似度的替代方法(比较不同格式的文档)

nlp、data-mining、tf-idf、cosine-similarity

目前，代码的工作方式如下：2)对于每个职业(例如“数据分析师”)，将该职业的职务列表的处理文本合并到一个文档中 3)计算职业文档内各技能的TF-IDF我见过的最流行的方法是将用户的技能也视为文档，然后计算技能文档的TF-IDF，并使用余弦相似度之类的东西来计算技能文档和每个职业文档之间的相似度。对我来说，这似乎不是理想的解决方案，因为在比较两个相同格式的文档时，最

浏览 8提问于2017-01-03得票数 3

回答已采纳

1回答

基于关键字数量的文档与其他文档相关的概率

statistics、probability

从文档中的字数来看，说文档Y比文档X更相关是不正确的。如何对此进行规范化，以获得最准确的相关文档。

浏览 8提问于2016-01-09得票数 0

1回答

两个语料的Tf-Idf计算

java、tf-idf、cosine-similarity、inverted-index

我有两个语料库(语料库1和语料库2)，语料库1中的文档包含从语料库2中抄袭的句子。我正在使用Tf-Idf方法来衡量语料库1中的文档与语料库2中的文档之间的相似度。已经为语料库2中的术语建立了倒排索引，如下所示：简而言之，对于每两个句子的比较，我建立了两个Tf-Idf向量，然后使用余弦相似度来度量相似度。由于语料库1中的一些术语在语料库2中不可用，Tf-idf函数将为这些术语返回0！或者我必须

浏览 10提问于2017-01-16得票数 0

回答已采纳

1回答

余弦相似度的预处理要求是什么？

similarity、cosine-similarity

余弦相似度的输入是两个向量，代表我想要比较的两个不同的数据。对向量的语义有要求吗？它是否仅仅是每个文件的字节表示。然后计算每个字节的频率？这有意义吗？或者应该对文件进行矢量化，其中每个维度不是来自文件的原始数据，而是一些元数据作为每个术语的频率，如果我们使用文本文件或tf-idf编码模型的话？换个说法:为了“正确”，余弦相似度是否需要一个复杂的数据预处理步骤，或者我可以将其作为输入整数值，表示数据的每个字节，而不考虑文本，或者只是每个字节的频率项？

浏览 0提问于2013-02-12得票数 0

1回答

如何在此用例中使用余弦相似度？

statistics、data-mining、recommendation-engine、cosine-similarity

向量A将具有以下分量( property1 (二进制)、property2 (二进制)、属性3(从0到50的整数)、property4 (从0到10的整数))我知道，使用余弦相似度计算这两个向量之间的角度我想创建一个基于相似度的推荐。但我不清楚如何对属性和/或向量进行标准化，因为它是binary+binary_int范围+int范围。另外，如果我想给一个属性赋予比另一个属性更高的权重，我该怎么做呢？我在网上找到了文

浏览 2提问于2014-10-05得票数 1

1回答

tf-idf向量空间中的ntc形式到底是什么？

python、nlp、tf-idf

我被要求在tf-idf向量空间和ntc形式中显示每个文档，然后在python中训练一个基于文档向量的svm模型。ntc在这里到底是什么意思？我发现它与tf-idf权重相同，只需一步归一化即所谓的“余弦归一化”。但是我找不到关于这件事的信息。我发现“余弦相似度”与“余弦归一化”不同。它们是一样的吗？我如何在python中创建这个向量呢？

浏览 2提问于2021-01-07得票数 0

点击加载更多

如何计算TF-IDF

使用Gensim更新TF-IDF

如何计算多类型数据的余弦相似度？

如何在python中使用嵌套循环加快计算余弦相似度

我可以获得Word2Vec和Doc2Vec矩阵来计算余弦相似度吗？

计算句子集合之间的语义相似度

java -如何利用文档的tfidf分数实现余弦相似度？*

给定2个句子串计算余弦相似度

Lucene中查询和文档的余弦相似度