腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1255)
视频
沙龙
1
回答
如
何在
quanteda
中
计算
文档
相似
度
时
排除
重复
计数
、
、
我正在尝试
计算
160个
文档
(dfm_daten)之间的余弦
相似
度
,然后将它们作为成对列表导出到Excel
中
。listcosdoc <- as.data.frame(cosdocpair, sorted = TRUE, diag = FALSE, upper = FALSE) 我知道upper = FALSE应该去掉
重复
计数
(A,B)和(B,A),我想
排除
它们,但是我生成的列表总是包含(A,B)和(B,A)。它适用于您的示例,但当我使用我的DFM<
浏览 14
提问于2020-05-19
得票数 0
1
回答
为什么我们在Lucene
中
设置索引
时
的
相似
性函数?
Lucene如
何在
索引
时
使用
相似
度
?在阅读索引
时
,我理解
相似
性的作用。因此,searcher.setSimilarity()在得分方面是有意义的。
浏览 0
提问于2020-11-10
得票数 0
1
回答
lucene是如何构建VSM的?
、
、
、
、
我理解了VSM,TFIDF和余弦
相似
的概念,但是,在阅读lucene网站之后,我仍然对lucene如何构建VSM和
计算
每个查询的
相似
度
感到困惑。当我尝试从一组
文档
构建VSM
时
,使用这个工具花了很长时间--这实际上与编码无关,因为直观地构建一个包含大量数据的VSM矩阵很费时,但对于lucene来说似乎并非如此。另外,使用预先构建的VSM,查找最
相似
的
文档
(基本上是
计算
两个
文档
或查询与
文档
之间的
浏览 7
提问于2014-02-14
得票数 1
回答已采纳
2
回答
Lucene
计算
平均项频率
、
、
、
、
实际公式的实现是直截了当的,但我正在努力
计算
所需的统
计数
字。我需要以下两项统
计数
字: 我发现,通过重写
相似
性实现的computeNorm方法,我可以在索引时
计算<
浏览 5
提问于2017-12-09
得票数 1
3
回答
高效jaccard
相似
DocumentTermMatrix
、
、
、
我想要一种有效
计算
tm::DocumentTermMatrix
文档
之间Jaccard
相似
性的方法。我可以通过slam包对余弦
相似
做一些类似的事情,
如
中所示,我在CrossValidated上遇到了,它是特定于R的,但关于矩阵代数并不一定是最有效的途径。如何有效地
计算
R中大型DocumentTermMatrix
文档
之间的Jaccard
相似
度
?注4分钟来求解,因为余弦
相似
度
是~5秒。library(qd
浏览 6
提问于2016-03-25
得票数 9
回答已采纳
2
回答
在对段落/doc2vec向量进行聚类
时
,合适的距离度量是什么?
、
、
、
、
我的目的是使用HDBSCAN对来自doc2vec的
文档
向量进行聚类。我想找到有语义和文本
重复
的小集群。但是,要对
文档
进行聚类,HDBSCAN需要一个距离矩阵,而不是
相似
度
矩阵。在sklearn
中
,从余弦
相似<
浏览 0
提问于2018-10-09
得票数 4
回答已采纳
2
回答
Apache solr -更像这个分数
、
我有一个包含大约1000个
文档
的小索引,其中只有两个字段:- id (string) - content (text_general) 我注意到,当我按id对
相似
内容进行MLT搜索
时
,原始
文档
( id存在1:1
重复
的
文档
,对于
重复
的内容,它将返回score = 1.5258181。为什么?为什么它不是5.241327,当它是100%复制。另一个问题是,我能否以任何方式通过在查询
中
传递一些文本来获得按内容
计算
的
相似
<e
浏览 1
提问于2012-12-03
得票数 1
2
回答
快速可扩展的
相似
性检测
、
、
我有一个包含
文档
的大型postgresql数据库。每个
文档
都表示为表
中
的一行。当新
文档
添加到数据库
中
时
,我需要检查
重复
项。但我不能仅仅使用select来找到完全匹配的内容。可以为每个
文档
计算
MinHash签名,并构建倒排索引,从数据库
中
查询
相似
的
文档
。但是我不能理解如何将MinHash映射到关系数据库。 据我所知,MinHash签名是N个散列的列表,其中N是一些属性。
相似<
浏览 3
提问于2012-12-04
得票数 1
回答已采纳
2
回答
基于一些预先定义的类别对单词进行标记
、
、
、
假设我们有16个不同的类别,例如,
计算
机,科学,艺术,商业等。我们在每个类别下有一些单词作为同义词,同义词等,它们描述了每个主题的可能含义及其范围。因此,可能存在
相似
甚至相同的词,这些词属于多个类别。我们的目标是向系统提交一个查询(删除停用词后,最大长度为3 ),并要求系统将此词放入
相似
度
最高的类别
中
。所以我的问题是,除了余弦
相似
性之外,还有什么好的技术可以做到这一点吗?
浏览 1
提问于2015-12-06
得票数 1
1
回答
存储数万亿个
文档
相似
性
、
、
、
我写了一个程序来
计算
两百万个
文档
之间的
相似
度
。程序可以工作,但我在存储结果
时
遇到了问题。我不需要经常访问结果,但偶尔需要查询它们并提取子集进行分析。列1和2是
文档
is,列3是
相似
性分数。因为
相似
度
得分是对称的,所以我不需要
计算
它们,但是仍然只剩下2000000*(2000000-1)/2≈2,000,000,000行记录。推算一下,这意味着我需要17TB来存储这样的结果(在纯文本文件
中
)。
浏览 1
提问于2014-03-06
得票数 7
3
回答
余弦
相似
度
文档
距离
、
我得到了两个
文档
,并要求我
计算
文档
中
每个单词出现的频率。例如,在doc1和doc2
中
,单词“猫”分别出现了两次,然后它总共出现了4次,我需要
计算
它出现的频率。通过过去三个晚上的谷歌搜索,我发现了一个很棒的算法,叫做余弦
相似
度
。我现在明白了它是如何工作的。非常感谢你帮我解决了这个问题
浏览 4
提问于2015-03-27
得票数 1
4
回答
如
何在
百万
文档
的
文档
分类中发现离群点?
、
、
、
、
我有一百万个
文档
,它们属于不同的类(100个类)。我想找出每个类
中
的异常
文档
(不属于该类,但分类错误),并对它们进行过滤。我可以通过比较每个
文档
的标记来使用余弦
相似
度
进行
文档
相似
度
。我无法将其应用于为给定类别过滤错误分类的
文档
。示例:为了简单起见,考虑这3个类以及它们下面的
文档
。doc4 doc5
浏览 0
提问于2019-12-19
得票数 2
1
回答
肯德尔和肯德尔的距离有什么区别?
、
、
、
、
我现在正试图利用肯德尔的距离来提高基于Borda
计数
方法的排名。“Kendall的距离将两项排名
中
的项目之间的两两分歧
计算
为: 哪里Kendall的τ是根据规范化的Kendall距离来
浏览 0
提问于2019-02-09
得票数 0
回答已采纳
3
回答
根据一组
文档
中
的
相似
度
对句子进行排序的最佳方法
、
、
我想知道从一组
文档
中
根据
相似
度
对句子进行排序的最佳方法。例如,假设, 以
文档
1为主要内容的5个documents.Each
文档
包含多个sentences.Lets,即输出将包含来自该
文档
的句子的列表应该是所有5个
文档
中排名最
相似
的句子列表,第一个排序的句子是所有5个
文档
中最
相似
的句子,然后是第二个,然后是第三个...
浏览 0
提问于2012-01-04
得票数 0
回答已采纳
5
回答
余弦
相似
性与tf
、
、
、
我对以下关于、TF-以色列国防军和余弦
相似
的评论感到困惑.我读了这两篇文章,然后在wiki上找到了这句话:“在信息检索的情况下,两个
文档
的余弦
相似
性将在0到1之间,因为术语频率(tf-国防军权重)不能是负值,两个项频率向量之间的夹角不能大于90”。tf-国防军已经在余弦内
相似
了吗?如果是的话,那我只能看到内部的点积和欧几里得长度。 我以为在文本上进行余弦
相似
之前,TF-国防军是可以做的。我错过了什么吗?
浏览 2
提问于2011-06-06
得票数 39
回答已采纳
2
回答
保存BERT语句嵌入
、
、
、
、
我已经了解了
文档
model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-mpnet-base-v2query_embedding = model.encode(query)编码函数输出一个类似于这个numpy.ndarray的 并利用这样的余弦
相似
度
来
计算
相似
度
similarity =
浏览 23
提问于2022-01-14
得票数 4
1
回答
根据一定的规则过滤JSON
、
我想在我的过滤器
中
从上到下进行匹配。 这有意义吗?我有没有遗漏什么缺陷?有没有人能给我介绍一个函数实现/伪代码?
浏览 10
提问于2020-06-02
得票数 1
回答已采纳
2
回答
从大型文本语料库
中
的给定术语列表中找到最
相似
的术语。
、
、
、
此外,我有一个巨大的文本语料库从一个子-Reddit(帖子,评论,线程等)我们列表
中
的播客经常被用户提及。我想要解决的任务是,我必须用我们的语料库
中
的每个名字来
计算
提到的次数。这使得从列表
中
识别姓名相当困难。当我遍历subreddit语料库
时
,每当我找到一个命名的实体或潜在的播客名称<e
浏览 5
提问于2021-10-30
得票数 0
回答已采纳
3
回答
R:
计算
余弦
相似
度
的正确方法?
、
、
a photo to show the huge bun and tiny chicken."我想
计算
一下每一对元素之间的余弦
相似
矩阵similarities matrixdistMatrix <- 1 - cosine(lsaMatrix) 在查看结果矩阵
时
:3.658840e-03 0.019623883
浏览 8
提问于2022-04-28
得票数 2
3
回答
在比较不同格式的
文档
时
替代TF-国防军和余弦
相似
的方法
、
、
、
目前,该代码的工作方式如下:2)每项职业(
如
:),将该职业的职务列表的处理文本合并到一个
文档
中
。 3)
计算
职业文件
中
每项技能的TF-国防军。我见过的最流行的方法是将用户的技能也当作
文档
来处理,然后
计算
技能
文档
的TF-国防军,然后使用余弦
相似
度
来
计算
技能
文档
和每个职业
文档
之间的
相似
性。对我来说,
浏览 0
提问于2017-01-02
得票数 15
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
移动端图像相似度算法选型
基于机器学习的文档相似度算法来构建个性化智能文章推荐系统
Elasticsearch中的相似度评分介绍
在 Azure 机器学习工作室中创建文本分析模型
MongoDB的简单介绍(三)
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券