腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
根据
文档
集合
计算
文档
相似
度
?
有什么方法可以组合成对的
文档
相似
性得分,以获得某个
文档
相对于
文档
集合
的总体
相似
性得分?
如何
根据
文档
集合
计算
文档
相似
度
?- ResearchGate。可从:访问2016年8月22日。
浏览 16
提问于2016-08-22
得票数 0
1
回答
基于Okapi模式的
文档
相似
度
计算
、
、
我从这里的和本文的中发现Okapi
相似
性度量可以用于
计算
文档
相似
度
例如,我有10个
文档
(
文档
#A、#B、#C、#D等)在我的
文档
集合
中i l
根据
首先选择的查询
文档
的查询术语,通过
浏览 2
提问于2012-06-13
得票数 1
回答已采纳
1
回答
余弦
相似
性--一对多
我想知道是否有什么好方法可以使用余弦
相似
度
来比较单个
文档
和一组
文档
。显然,你可以
计算
单个
文档
和
集合
中每个
文档
之间的余弦
相似
度
,但如果这样做了,你会取平均值吗?您是否会
根据
要与原始
文档
进行比较的其他每个
文档
的大小进行加权?我还想知道是否有任何方法可以组合正在比较的一组
文档
中的所有单词计数,以便最终只
计算
一次原始
文档</em
浏览 1
提问于2013-02-27
得票数 0
2
回答
比较
文档
-
文档
相似
度
、
、
、
、
该项目由大约1000个
文档
组成,其中每个
文档
大约有100个单词,结构为具有词频的词袋。我想
根据
文档
(从
集合
中)找到类似的
文档
。使用TF-IDF,为查询(给定
文档
)和
集合
中的所有其他
文档
计算
tf-idf,然后将这些值作为具有余弦
相似
度
的向量进行比较。这能让我们对它们的
相似
性有一些了解吗?或者,由于大查询(
文档
),这是否不合理?有没有其他
相似
浏览 2
提问于2015-04-24
得票数 0
3
回答
Pyspark过滤器在执行余弦
相似
度
时前三个匹配
、
我已经
计算
了每对笛卡尔乘积之间的余弦
相似
度
,并得到了形式为其中k1是第一个
集合
中的
文档
,k2是第二个
集合
中的
文档
,c是它们之间的余弦
相似
度
。对于第一个
集合
中的每个
文档
k1,我感兴趣的是从第二个
集合
中获取最
相似
的三个
文档
。你能告诉我
如何
调整它,或者更好的是,使用一些不会扰乱数据的东西吗?
浏览 5
提问于2016-08-10
得票数 1
1
回答
Lucene中查询和
文档
的余弦
相似
度
、
、
、
我想要获得一个长查询和一个
集合
中的
文档
之间的余弦
相似
度
。我使用Lucence为
集合
建立索引,并提交查询以检索
文档
。有人能证实这一点吗?
浏览 0
提问于2011-08-29
得票数 1
回答已采纳
2
回答
基于一些预先定义的类别对单词进行标记
、
、
、
假设我们有16个不同的类别,例如,
计算
机,科学,艺术,商业等。我们在每个类别下有一些单词作为同义词,同义词等,它们描述了每个主题的可能含义及其范围。因此,可能存在
相似
甚至相同的词,这些词属于多个类别。我们的目标是向系统提交一个查询(删除停用词后,最大长度为3 ),并要求系统将此词放入
相似
度
最高的类别中。所以我的问题是,除了余弦
相似
性之外,还有什么好的技术可以做到这一点吗?
浏览 1
提问于2015-12-06
得票数 1
1
回答
如何
用Lucene和Java
计算
tf-国防军的余弦
相似
度
、
、
、
我有一个查询和一组
文档
。我需要
根据
与tf-国防军的余弦
相似
性对这些文件进行排序。请有人告诉我,我能从Lucene那里得到什么支持来
计算
这个?从Lucene可以直接
计算
出哪些参数(可以通过lucene中的某些方法直接得到tf、国防军吗?)
如何
用Lucene
计算
余弦
相似
度
(如果传递查询和
文档
的两个向量,是否有直接返回余弦
相似
度
的函数?)
浏览 1
提问于2012-04-16
得票数 2
2
回答
基于矩阵乘法的
文档
检索
、
、
我有一个模型,它表示多维向量空间中的
文档
集合
。例如,对于100 k
文档
,我的模型以300维向量的形式表示它们。最后,我得到了一个大小为[100K, 300]的矩阵。为了
根据
给定查询的相关性检索这些
文档
,我执行矩阵乘法。例如,我将给定的查询表示为[300, 1]。然后,利用矩阵乘法得到余弦
相似
度
分数如下:[100K, 300]*[300, 1] = [100K, 1]。现在,
如何
从这个具有最高余弦
相似
性的
集合
中检索前1
浏览 4
提问于2020-05-14
得票数 0
回答已采纳
1
回答
RapidMiner:
计算
文档
相似
度
我正在使用Rapidminer
计算
文档
之间的
相似
性。我正在使用来自我的Java应用程序的这个过程。此过程
计算
每个
文档
与数据集中的每个其他
文档
的
相似
性。我不想
计算
每个
文档
之间的
相似
性。I只想
计算
一个选定
文档
与所有其他
文档
的
相似
度
。数据到
相
浏览 3
提问于2016-05-18
得票数 0
回答已采纳
2
回答
搜索选择
对于我正在编写的C#程序,我需要比较两个实体(可以是
文档
、动物或几乎任何实体)中的
相似
性。基于某些属性,我
计算
文档
(或实体)之间的
相似
度
。我把它们的
相似
之处放在下面的表格中。X Y Z B|0.6 |0.4 |0.2 我想
根据
最高的
相似
度
分数找到最佳匹配对(例如: AX,BY,CZ)。得分越高,
相似
度</em
浏览 0
提问于2010-12-03
得票数 0
1
回答
使用Gensim更新TF-IDF
、
、
、
您好,我正在使用Gensim来查找
文档
之间的
相似
度
,因此我对
文档
进行TF-IDF并
计算
余弦
相似
度
。当我有新
文档
时,我可以使用index[tfidfvec]
计算
这个
文档
与以前
文档
的
相似
度
,但是这样TF-IDF不会更新,并且在
相似
度
计算
中不考虑新词。有没有什么解决方案可以快速更新TF-IDF而无需重新
计算<
浏览 2
提问于2018-12-26
得票数 2
1
回答
K-表示文本
文档
的聚类。
如何
计算
内部和内部的
相似
性?
、
、
、
我对数千份文件进行分类,其中向量分量是
根据
tf-以色列国防军
计算
的.我用余弦
相似
性。我对词组中的单词进行了频率分析,以检查顶部单词的差异。但我不知道
如何
用数字
计算
这类
文档
中的
相似
性。我将集群的内部
相似
性
计算
为每个
文档
与集群的质心
相似
度
的平均值。如果我算上的话,平均每对夫妇都是基于小数目的。 外部
相似
度
计算
为所有对簇质心的平均<e
浏览 3
提问于2013-05-03
得票数 1
1
回答
Elasticsearch:在相关评分中使用密集向量上的距离(在查询时)
我使用elasticsearch来组合不同的东西:-基于密集向量(余弦
相似
度
)的文本得分搜索。我的问题是,在查询阶段不
计算
余弦
相似
度
,我在文本中的搜索充当预筛选器。我将始终获得结果链接到文本搜索,即使余弦
相似
更好。这是function_score
根据
的标准行为 function_score允许您修改查询检索
浏览 1
提问于2020-01-29
得票数 1
回答已采纳
2
回答
用于
文档
分类、阈值检测的质心算法
、
、
、
、
我有一个与特定领域相关的
文档
集合
,并
根据
该
集合
训练了质心分类器。我想要做的是,我将向分类器提供来自不同领域的
文档
,并确定它们与经过训练的域有多大的相关性。我可以用余弦
相似
度
来得到一个数值,但我的问题是,确定阈值的最佳方法是什么? 为此,我可以从不同的领域下载几个
文档
,并检查它们的
相似
度
,以确定阈值。但这是一条路吗,从统计上讲,这听起来不错吗?
浏览 0
提问于2012-08-04
得票数 0
1
回答
针对多个
文档
计算
文本
相似
度
、
、
、
我试图
计算
一个搜索词A的文本
相似
性,就像“
如何
使小鸡”与其他搜索词的
集合
一样。为了
计算
相似
度
,我使用余弦距离和TF将A转换成一个向量。我想同时比较一下A与所有
文档
的
相似
性。目前,我的方法包括迭代
计算
A的余弦
相似
性,每次针对其他
文档
计算
。我有100个与之比较的文件。如果cos_sim(A, X) > 0.8的结果,我打断并说“酷,这是
相似
的”
浏览 5
提问于2019-11-14
得票数 0
2
回答
计算
句子
集合
之间的语义
相似
度
、
、
、
、
我有两组短消息,我想
计算
这两组短消息之间的
相似
度
,并
根据
它们的语义
相似
度
来识别它们是否在谈论相同的子主题。我知道
如何
使用成对
相似
度
,我的问题是我想
计算
两个
集合
中所有句子之间的总体
相似
度
,而不是两个句子的
相似
度
。有没有办法使用tf-idf或带有余弦
相似
度
的word2vec/doc2ve
浏览 4
提问于2019-08-02
得票数 0
1
回答
计算
余弦
相似
度
、
如何
计算
余弦
相似
度
以使用jdbc完成我的搜索引擎项目。我有表词频查询来存储用户的输入,表词频
文档
来存储
文档
的所有信息,我做了
计算
查询和
文档
加权。
计算
余弦
相似
度
后的输出是用户输入的与查询相关的
文档
的显示。我没有任何想法,也不知道
如何
计算
它,因为它涉及到数据库中的表。
浏览 4
提问于2011-04-13
得票数 1
1
回答
Solr:查询多个碎片时的结果排序
如果我在两个碎片之间查询,第一个碎片返回10行,第二个碎片返回100行,那么合并的结果集是
如何
排列的?我最终会得到第一个碎片(结果最少)的结果吗?
浏览 3
提问于2015-10-06
得票数 1
回答已采纳
1
回答
lucene是
如何
构建VSM的?
、
、
、
、
我理解了VSM,TFIDF和余弦
相似
的概念,但是,在阅读lucene网站之后,我仍然对lucene
如何
构建VSM和
计算
每个查询的
相似
度
感到困惑。当我尝试从一组
文档
构建VSM时,使用这个工具花了很长时间--这实际上与编码无关,因为直观地构建一个包含大量数据的VSM矩阵很费时,但对于lucene来说似乎并非如此。另外,使用预先构建的VSM,查找最
相似
的
文档
(基本上是
计算
两个
文档
或查询与
文档
之间的
浏览 7
提问于2014-02-14
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何根据EXCEL数据自动生成WORD文档?
Gensim,一个主题建模与文档相似度的Python库!
基于机器学习的文档相似度算法来构建个性化智能文章推荐系统
如何用 word2vec 计算两个句子之间的相似度?
基于MRDI的关键词语义扩展密文检索技术研究
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券