腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
计算
TF-IDF
nlp
、
tf-idf
我想使用
TF-IDF
的
余弦
相似
度
方法来得到两个单词的语义
相似
度
。首先,我想从wikipedia或word- text中提取这些单词的含义,然后对文本进行预处理并找到
TF-IDF
。当我在谷歌上搜索这个问题时,我发现为了找到
TF-IDF
,我们应该有一个训练集和测试集。在我的例子中,哪个是训练集,哪个是测试集?如何使用
计算
结果
计算
余弦
相似
度
?
浏览 3
提问于2012-10-06
得票数 1
回答已采纳
1
回答
使用Gensim更新
TF-IDF
python
、
gensim
、
similarity
、
tf-idf
您好,我正在使用Gensim来查找文档之间的
相似
度
,因此我对文档进行
TF-IDF
并
计算
余弦
相似
度
。当我有新文档时,我可以使用index[tfidfvec]
计算
这个文档与以前文档的
相似
度
,但是这样
TF-IDF
不会更新,并且在
相似
度
计算
中不考虑新词。有没有什么解决方案可以快速更新
TF-IDF
而无需重新
计算
整个矩阵,
浏览 2
提问于2018-12-26
得票数 2
1
回答
如何
计算
多类型数据的
余弦
相似
度
?
similarity
、
trigonometry
、
cosine-similarity
我有一个使用
余弦
相似
度
的约束。如果变量(属性、列)的类型不同,并以以下形式出现:如何进行矢量化以应用
余弦
相似
度
?对于字符串,我可以使用简单的
tf-idf
。但是对于数字和布尔值呢?如何将这些结合起来呢?我的想法是向量应该是1+1+1+20长度。但是,仅仅将记录的数字转换为矢量中的系数,并将它们与字符串的
tf-idf
连接以
计算
余弦</em
浏览 5
提问于2013-03-20
得票数 1
3
回答
如何在python中使用嵌套循环加快
计算
余弦
相似
度
python
、
gensim
、
cosine-similarity
我试图
计算
所有值之间的
余弦
相似
度
。from gensim import matutils# array_B contains 20,000
TF-IDF
values for y in array_B:有必要使用gensim软件包来
浏览 3
提问于2017-09-18
得票数 0
2
回答
我可以获得Word2Vec和Doc2Vec矩阵来
计算
余弦
相似
度
吗?
python
、
gensim
、
word2vec
、
doc2vec
我正在处理文本数据,目前我已经将我的数据放入术语文档矩阵中,并
计算
出TF,术语频率和
TF-IDF
,术语频率与文档频率相反。从这里看,我的矩阵如下所示:行名=单词 填充了他们的TF和
TF-IDF
分数。我不清楚我是否有像TF和
TF-IDF
中那样的词嵌入。我希望使用Word2Vec/Doc2Vec,并获得一个类似于我目前拥有的矩阵,然后
计算
文档之间的
余弦
相似
度
。这是模型的输出之一吗?我基本上有大约6000个文档,我想
计算</
浏览 3
提问于2019-07-11
得票数 0
2
回答
计算
句子集合之间的语义
相似
度
nlp
、
word2vec
、
tf-idf
、
cosine-similarity
、
sentence-similarity
我有两组短消息,我想
计算
这两组短消息之间的
相似
度
,并根据它们的语义
相似
度
来识别它们是否在谈论相同的子主题。我知道如何使用成对
相似
度
,我的问题是我想
计算
两个集合中所有句子之间的总体
相似
度
,而不是两个句子的
相似
度
。有没有办法使用
tf-idf
或带有
余弦
相似
度
的word2vec/doc2vec来
计算<
浏览 4
提问于2019-08-02
得票数 0
1
回答
java -如何利用文档的tf*idf分数实现
余弦
相似
度
?
java
、
similarity
、
trigonometry
、
tf-idf
我已经
计算
了关键字和所有文档的
tf-IDF
值。假设我将所有文档的
tf-IDF
值存储在一个数组中,如何使用它来
计算
余弦
相似
度
?感谢您对代码的任何帮助!
浏览 1
提问于2012-04-23
得票数 0
回答已采纳
7
回答
给定2个句子串
计算
余弦
相似
度
python
、
string
、
nlp
、
similarity
、
cosine-similarity
在中,可以使用
tf-idf
余弦
计算
文档
相似
度
。在不导入外部库的情况下,有没有办法
计算
两个字符串之间的
余弦
相似
度
?
浏览 4
提问于2013-03-02
得票数 79
回答已采纳
1
回答
Lucene中查询和文档的
余弦
相似
度
lucene
、
similarity
、
trigonometry
、
tf-idf
我想要获得一个长查询和一个集合中的文档之间的
余弦
相似
度
。我使用Lucence为集合建立索引,并提交查询以检索文档。有人能证实这一点吗?
浏览 0
提问于2011-08-29
得票数 1
回答已采纳
1
回答
从
tf-idf
计算
余弦
相似
度
python-2.7
、
pandas
、
scikit-learn
、
text-classification
、
cosine-similarity
在数据帧df中,我具有以下列
tf-idf
0 {u'selection': 3.83579393163, u'carltons': 7.0...我正在努力寻找两个样本之间的cosine similarity -例如,在df['
tf-idf
'][
浏览 13
提问于2016-09-26
得票数 2
回答已采纳
2
回答
比较文档-文档
相似
度
java
、
nlp
、
similarity
、
information-retrieval
、
tf-idf
我想根据文档(
从
集合中)找到类似的文档。谢谢你的帮助
浏览 2
提问于2015-04-24
得票数 0
2
回答
在K-Means聚类中使用词干提取
algorithm
、
k-means
、
stemming
这是我所做的:我应该在哪里使用词干部分?我是不是应该先
计算
词干,然后
计算
词干的
tf-idf
?使用词干提取不会降低结果吗?
浏览 2
提问于2013-07-18
得票数 1
1
回答
理解两个
TF-IDF
向量
相似
的原因
text
、
scikit-learn
、
nlp
我想要一些关于理解
TF-IDF
向量结果的方法的反馈,以及可能的替代方法。 现在,我有两个文本语料库。目标是找到每个语料库中的哪些文档最
相似
。这是一种在
TF-IDF
中“解释”紧密关系的有效方法吗?我的结果是不错的,但它似乎对非常普通的单词有很大的价值,这很不幸,但对我的任务来说很有说服力。
浏览 2
提问于2018-10-27
得票数 0
1
回答
在Pyspark中查找相关的文档名称
python
、
pyspark
、
pyspark-sql
我想在不同的行中找到
相似
的名字。我已经尝试了
余弦
相似
度
,但无法实现这一点。 我已经使用pyspark
计算
了
TF-IDF
。寻找使用pyspark在不同行中获取相关名称的方法。
浏览 11
提问于2018-02-23
得票数 0
0
回答
TF-IDF
和
余弦
相似
度
的替代方法(比较不同格式的文档)
nlp
、
data-mining
、
tf-idf
、
cosine-similarity
目前,代码的工作方式如下:2)对于每个职业(例如“数据分析师”),将该职业的职务列表的处理文本合并到一个文档中 3)
计算
职业文档内各技能的
TF-IDF
我见过的最流行的方法是将用户的技能也视为文档,然后
计算
技能文档的
TF-IDF
,并使用
余弦
相似
度
之类的东西来
计算
技能文档和每个职业文档之间的
相似
度
。对我来说,这似乎不是理想的解决方案,因为在比较两个相同格式的文档时,最
浏览 8
提问于2017-01-03
得票数 3
回答已采纳
1
回答
基于关键字数量的文档与其他文档相关的概率
statistics
、
probability
从
文档中的字数来看,说文档Y比文档X更相关是不正确的。 如何对此进行规范化,以获得最准确的相关文档。
浏览 8
提问于2016-01-09
得票数 0
1
回答
两个语料的
Tf-Idf
计算
java
、
tf-idf
、
cosine-similarity
、
inverted-index
我有两个语料库(语料库1和语料库2),语料库1中的文档包含
从
语料库2中抄袭的句子。我正在使用
Tf-Idf
方法来衡量语料库1中的文档与语料库2中的文档之间的
相似
度
。已经为语料库2中的术语建立了倒排索引,如下所示: 简而言之,对于每两个句子的比较,我建立了两个
Tf-Idf
向量,然后使用
余弦
相似
度
来度量
相似
度
。由于语料库1中的一些术语在语料库2中不可用,
Tf-idf
函数将为这些术语返回0!或者我必须
浏览 10
提问于2017-01-16
得票数 0
回答已采纳
1
回答
余弦
相似
度
的预处理要求是什么?
similarity
、
cosine-similarity
余弦
相似
度
的输入是两个向量,代表我想要比较的两个不同的数据。对向量的语义有要求吗?它是否仅仅是每个文件的字节表示。然后
计算
每个字节的频率?这有意义吗?或者应该对文件进行矢量化,其中每个维度不是来自文件的原始数据,而是一些元数据作为每个术语的频率,如果我们使用文本文件或
tf-idf
编码模型的话?换个说法:为了“正确”,
余弦
相似
度
是否需要一个复杂的数据预处理步骤,或者我可以将其作为输入整数值,表示数据的每个字节,而不考虑文本,或者只是每个字节的频率项?
浏览 0
提问于2013-02-12
得票数 0
1
回答
如何在此用例中使用
余弦
相似
度
?
statistics
、
data-mining
、
recommendation-engine
、
cosine-similarity
向量A将具有以下分量( property1 (二进制)、property2 (二进制)、属性3(
从
0到50的整数)、property4 (
从
0到10的整数))我知道,使用
余弦
相似
度
计算
这两个向量之间的角度我想创建一个基于
相似
度
的推荐。 但我不清楚如何对属性和/或向量进行标准化,因为它是binary+binary_int范围+int范围。另外,如果我想给一个属性赋予比另一个属性更高的权重,我该怎么做呢?我在网上找到了文
浏览 2
提问于2014-10-05
得票数 1
1
回答
tf-idf
向量空间中的ntc形式到底是什么?
python
、
nlp
、
tf-idf
我被要求在
tf-idf
向量空间和ntc形式中显示每个文档,然后在python中训练一个基于文档向量的svm模型。ntc在这里到底是什么意思?我发现它与
tf-idf
权重相同,只需一步归一化即所谓的“
余弦
归一化”。但是我找不到关于这件事的信息。我发现“
余弦
相似
度
”与“
余弦
归一化”不同。它们是一样的吗?我如何在python中创建这个向量呢?
浏览 2
提问于2021-01-07
得票数 0
点击加载更多
相关
资讯
余弦相似度算法进行客户流失分类预测
循环神经网络(三)——词嵌入学习与余弦相似度
文本相似度计算综述
计算图像相似度——《Python也可以》
基于规则的句子相似度计算
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
语音识别
活动推荐
运营活动
广告
关闭
领券