如何在quanteda中计算文档相似度时排除重复计数

、、

我正在尝试计算160个文档(dfm_daten)之间的余弦相似度，然后将它们作为成对列表导出到Excel中。listcosdoc <- as.data.frame(cosdocpair, sorted = TRUE, diag = FALSE, upper = FALSE) 我知道upper = FALSE应该去掉重复计数(A,B)和(B,A)，我想排除它们，但是我生成的列表总是包含(A,B)和(B,A)。它适用于您的示例，但当我使用我的DFM<

浏览 14提问于2020-05-19得票数 0

1回答

为什么我们在Lucene中设置索引时的相似性函数？

Lucene如何在索引时使用相似度？在阅读索引时，我理解相似性的作用。因此，searcher.setSimilarity()在得分方面是有意义的。

浏览 0提问于2020-11-10得票数 0

1回答

lucene是如何构建VSM的？

、、、、

我理解了VSM，TFIDF和余弦相似的概念，但是，在阅读lucene网站之后，我仍然对lucene如何构建VSM和计算每个查询的相似度感到困惑。当我尝试从一组文档构建VSM时，使用这个工具花了很长时间--这实际上与编码无关，因为直观地构建一个包含大量数据的VSM矩阵很费时，但对于lucene来说似乎并非如此。另外，使用预先构建的VSM，查找最相似的文档(基本上是计算两个文档或查询与文档之间的

浏览 7提问于2014-02-14得票数 1

回答已采纳

2回答

Lucene计算平均项频率

、、、、

实际公式的实现是直截了当的，但我正在努力计算所需的统计数字。我需要以下两项统计数字：我发现，通过重写相似性实现的computeNorm方法，我可以在索引时计算<

浏览 5提问于2017-12-09得票数 1

3回答

高效jaccard相似DocumentTermMatrix

、、、

我想要一种有效计算tm::DocumentTermMatrix文档之间Jaccard相似性的方法。我可以通过slam包对余弦相似做一些类似的事情，如中所示，我在CrossValidated上遇到了，它是特定于R的，但关于矩阵代数并不一定是最有效的途径。如何有效地计算R中大型DocumentTermMatrix文档之间的Jaccard相似度？注4分钟来求解，因为余弦相似度是~5秒。library(qd

浏览 6提问于2016-03-25得票数 9

回答已采纳

2回答

在对段落/doc2vec向量进行聚类时，合适的距离度量是什么？

、、、、

我的目的是使用HDBSCAN对来自doc2vec的文档向量进行聚类。我想找到有语义和文本重复的小集群。但是，要对文档进行聚类，HDBSCAN需要一个距离矩阵，而不是相似度矩阵。在sklearn中，从余弦相似<

浏览 0提问于2018-10-09得票数 4

回答已采纳

2回答

Apache solr -更像这个分数

、

我有一个包含大约1000个文档的小索引，其中只有两个字段：- id (string) - content (text_general) 我注意到，当我按id对相似内容进行MLT搜索时，原始文档( id存在1:1重复的文档，对于重复的内容，它将返回score = 1.5258181。为什么？为什么它不是5.241327，当它是100%复制。另一个问题是，我能否以任何方式通过在查询中传递一些文本来获得按内容计算的相似<e

浏览 1提问于2012-12-03得票数 1

2回答

快速可扩展的相似性检测

、、

我有一个包含文档的大型postgresql数据库。每个文档都表示为表中的一行。当新文档添加到数据库中时，我需要检查重复项。但我不能仅仅使用select来找到完全匹配的内容。可以为每个文档计算MinHash签名，并构建倒排索引，从数据库中查询相似的文档。但是我不能理解如何将MinHash映射到关系数据库。据我所知，MinHash签名是N个散列的列表，其中N是一些属性。相似<

浏览 3提问于2012-12-04得票数 1

回答已采纳

2回答

基于一些预先定义的类别对单词进行标记

、、、

假设我们有16个不同的类别，例如，计算机，科学，艺术，商业等。我们在每个类别下有一些单词作为同义词，同义词等，它们描述了每个主题的可能含义及其范围。因此，可能存在相似甚至相同的词，这些词属于多个类别。我们的目标是向系统提交一个查询(删除停用词后，最大长度为3 )，并要求系统将此词放入相似度最高的类别中。所以我的问题是，除了余弦相似性之外，还有什么好的技术可以做到这一点吗？

浏览 1提问于2015-12-06得票数 1

1回答

存储数万亿个文档相似性

、、、

我写了一个程序来计算两百万个文档之间的相似度。程序可以工作，但我在存储结果时遇到了问题。我不需要经常访问结果，但偶尔需要查询它们并提取子集进行分析。列1和2是文档is，列3是相似性分数。因为相似度得分是对称的，所以我不需要计算它们，但是仍然只剩下2000000*(2000000-1)/2≈2,000,000,000行记录。推算一下，这意味着我需要17TB来存储这样的结果(在纯文本文件中)。

浏览 1提问于2014-03-06得票数 7

3回答

余弦相似度文档距离

、

我得到了两个文档，并要求我计算文档中每个单词出现的频率。例如，在doc1和doc2中，单词“猫”分别出现了两次，然后它总共出现了4次，我需要计算它出现的频率。通过过去三个晚上的谷歌搜索，我发现了一个很棒的算法，叫做余弦相似度。我现在明白了它是如何工作的。非常感谢你帮我解决了这个问题

浏览 4提问于2015-03-27得票数 1

4回答

如何在百万文档的文档分类中发现离群点？

、、、、

我有一百万个文档，它们属于不同的类(100个类)。我想找出每个类中的异常文档(不属于该类，但分类错误)，并对它们进行过滤。我可以通过比较每个文档的标记来使用余弦相似度进行文档相似度。我无法将其应用于为给定类别过滤错误分类的文档。示例:为了简单起见，考虑这3个类以及它们下面的文档。doc4 doc5

浏览 0提问于2019-12-19得票数 2

1回答

肯德尔和肯德尔的距离有什么区别？

、、、、

我现在正试图利用肯德尔的距离来提高基于Borda计数方法的排名。“Kendall的距离将两项排名中的项目之间的两两分歧计算为：哪里Kendall的τ是根据规范化的Kendall距离来

浏览 0提问于2019-02-09得票数 0

回答已采纳

3回答

根据一组文档中的相似度对句子进行排序的最佳方法

、、

我想知道从一组文档中根据相似度对句子进行排序的最佳方法。例如，假设，以文档1为主要内容的5个documents.Each文档包含多个sentences.Lets，即输出将包含来自该文档的句子的列表应该是所有5个文档中排名最相似的句子列表，第一个排序的句子是所有5个文档中最相似的句子，然后是第二个，然后是第三个...

浏览 0提问于2012-01-04得票数 0

回答已采纳

5回答

余弦相似性与tf

、、、

我对以下关于、TF-以色列国防军和余弦相似的评论感到困惑.我读了这两篇文章，然后在wiki上找到了这句话：“在信息检索的情况下，两个文档的余弦相似性将在0到1之间，因为术语频率(tf-国防军权重)不能是负值，两个项频率向量之间的夹角不能大于90”。tf-国防军已经在余弦内相似了吗？如果是的话，那我只能看到内部的点积和欧几里得长度。我以为在文本上进行余弦相似之前，TF-国防军是可以做的。我错过了什么吗？

浏览 2提问于2011-06-06得票数 39

回答已采纳

2回答

保存BERT语句嵌入

、、、、

我已经了解了文档model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-mpnet-base-v2query_embedding = model.encode(query)编码函数输出一个类似于这个numpy.ndarray的并利用这样的余弦相似度来计算相似度similarity =

浏览 23提问于2022-01-14得票数 4

1回答

根据一定的规则过滤JSON

、

我想在我的过滤器中从上到下进行匹配。这有意义吗？我有没有遗漏什么缺陷？有没有人能给我介绍一个函数实现/伪代码？

浏览 10提问于2020-06-02得票数 1

回答已采纳

2回答

从大型文本语料库中的给定术语列表中找到最相似的术语。

、、、

此外，我有一个巨大的文本语料库从一个子-Reddit(帖子，评论，线程等)我们列表中的播客经常被用户提及。我想要解决的任务是，我必须用我们的语料库中的每个名字来计算提到的次数。这使得从列表中识别姓名相当困难。当我遍历subreddit语料库时，每当我找到一个命名的实体或潜在的播客名称<e

浏览 5提问于2021-10-30得票数 0

回答已采纳

3回答

R:计算余弦相似度的正确方法？

、、

a photo to show the huge bun and tiny chicken."我想计算一下每一对元素之间的余弦相似矩阵similarities matrixdistMatrix <- 1 - cosine(lsaMatrix) 在查看结果矩阵时：3.658840e-03 0.019623883

浏览 8提问于2022-04-28得票数 2

3回答

在比较不同格式的文档时替代TF-国防军和余弦相似的方法

、、、

目前，该代码的工作方式如下：2)每项职业(如：)，将该职业的职务列表的处理文本合并到一个文档中。 3)计算职业文件中每项技能的TF-国防军。我见过的最流行的方法是将用户的技能也当作文档来处理，然后计算技能文档的TF-国防军，然后使用余弦相似度来计算技能文档和每个职业文档之间的相似性。对我来说，

浏览 0提问于2017-01-02得票数 15

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么我们在Lucene中设置索引时的相似性函数？

lucene是如何构建VSM的？

Lucene计算平均项频率

高效jaccard相似DocumentTermMatrix

在对段落/doc2vec向量进行聚类时，合适的距离度量是什么？

Apache solr -更像这个分数

快速可扩展的相似性检测

基于一些预先定义的类别对单词进行标记

存储数万亿个文档相似性

余弦相似度文档距离

如何在百万文档的文档分类中发现离群点？

肯德尔和肯德尔的距离有什么区别？

根据一组文档中的相似度对句子进行排序的最佳方法

余弦相似性与tf

保存BERT语句嵌入

根据一定的规则过滤JSON

从大型文本语料库中的给定术语列表中找到最相似的术语。

R:计算余弦相似度的正确方法？

在比较不同格式的文档时替代TF-国防军和余弦相似的方法

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐