腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
使用
每行
与
向量
之间
的
余弦
距离
创建
数据
框
列
、
我有以下
数据
帧: file_1 0.797647 ... 0.000000file_3 0.000000 ... 0.000000每一行都有一个索引(file_x)和4096
列
(没有名称)。 我还有一个大小为4096
的
向量
(称为test_file),我想为它计算
与
df中
的
每一行
的
余弦
相似度。其基本思想是将结果追加到一个新
列
中,我可以对该
列
进
浏览 8
提问于2019-09-12
得票数 0
回答已采纳
1
回答
在MXNet中计算
余弦
距离
我希望能够
使用
MXNet计算行
向量
之间
的
余弦
距离
。此外,我正在处理批次
的
样本,并希望计算每对样本
的
余弦
距离
(即批次#1
的
第一行
向量
与
批次#2
的
第一行
向量
的
余弦
距离
)。两个
向量
之间
的
余弦
距离</em
浏览 0
提问于2018-04-03
得票数 0
1
回答
Matlab k-means cosine将所有内容分配给一个集群
、
、
、
、
我在L2归一化
的
特征矩阵上
使用
Matlab
的
常规kmeans算法和'Distance','cosine','EmptyAction','drop‘,我有一个问题。Matlab生成
的
输出只是将每个
数据
点分配给集群1.00000,即使k=20和C中
的
所有质心都是NaN。对于可能导致这种情况
的
原因,有人有什么建议吗?矩阵
的
布局是(0,1,...,1,0,1,...,0,1,...,1,0,
浏览 0
提问于2012-05-09
得票数 1
回答已采纳
2
回答
可以仅
使用
非空值在行
之间
使用
余弦
相似性吗?
、
、
我想要找到一个查询行和另外10个行
之间
的
余弦
相似度(或者欧几里得
距离
,如果更容易)。这些行都是nan值,因此如果
列
是nan,则忽略它们。因此,我只想得到查询
的
每个非空
列
与
df
列
中
的
行
之间
的
余弦
相似性。因此,对于df中
的
第0行,B和F在查询和df中都是非空
的
。 然后,我想打印
每行
的
余弦<
浏览 0
提问于2019-02-11
得票数 5
回答已采纳
2
回答
为什么word2Vec
使用
余弦
相似度?
、
、
我一直在阅读关于Word2Vec
的
论文(例如),我认为我理解训练
向量
以最大化在相同上下文中发现其他词
的
可能性。例如,对于文档来说,
余弦
相似性比较是有意义
的
.两个文档可能有不同
的
长度,但有相似的分布词。 为什么不,比如说,欧几里得
距离
?
浏览 4
提问于2016-07-17
得票数 17
回答已采纳
1
回答
欧几里德
与
余弦
相似
、
、
、
、
我有一个文本
数据
集,我用tfidf技术矢量化,现在为了进行聚类分析,我正在测量这些
向量
表示
之间
的
距离
。我发现一种常用
的
方法是用
余弦
相似度来度量
距离
,当我问为什么不
使用
欧氏
距离
时,通常
的
回答是,当
向量
的
大小不同时,
余弦
相似性更好。由于我
的
文本矢量化表示是归一化
的
,我想知道
使用
余弦</em
浏览 0
提问于2018-04-11
得票数 2
回答已采纳
2
回答
Postgres:用于一对多搜索
的
浮点数数组
余弦
相似性索引
、
两个大小相等
的
向量
之间
的
被定义为点积除以范数
的
乘积。 为了表示
向量
,我有一个大型
的
float数组表,例如CREATE TABLE foo(vec float[])'。给定某个float数组,我需要快速(
使用
索引,而不是seqscan)通过
余弦
相似性(例如SELECT * FROM foo ORDER BY cos_sim(vec, ARRAY[1.0, 4.5, 2.2]) DESC LIMIT 10; )查找该表中最接近<
浏览 15
提问于2017-06-28
得票数 9
回答已采纳
1
回答
如何有效地调整Gensim Doc2Vec
的
超参数,以达到文档相似性问题
的
最大精度?
、
、
、
、
我有大约两万份文件,字数在60-150字
之间
。在这20K个文件中,有400个类似文件是已知
的
。这400个文档作为我
的
测试
数据
。目前,我正在删除这400个文档,并
使用
剩余
的
19600个文档来培训doc2vec。然后提取训练
数据
和测试
数据
的
向量
。现在,对于每个测试
数据
文档,我发现它
的
余弦
距离
与
所有的19600
列
文件
浏览 1
提问于2019-07-31
得票数 1
5
回答
余弦
相似性
与
Levenshtein
距离
、
、
、
我想知道他们
之间
的
区别是什么,在什么情况下他们工作得最好?
余弦
相似是度量内积空间中两个非零
向量
之间
相似性
的
度量,它度量了它们
之间
夹角
的
余弦
。0°
的
余弦
为1,对于(0,π)半径
的
任意角度都小于1。
列
文希廷
距离
是一个用于测量两个序列
之间
差异
的
字符串度量。非正式地说,两个单词<e
浏览 0
提问于2019-11-18
得票数 5
回答已采纳
2
回答
如何比较文本聚类中
的
不同相似性度量?
、
、
、
我有一个包含从字幕生成
的
向量
的
数据
集(每一
列
代表一种类型,
每行
代表一个电影名称),我
的
目的是找到最相似的电影标题,我想
使用
不同
的
距离
/相似性度量并比较它们,最好
的
方法是什么?现在,我尝试了L1
距离
,
余弦
相似度,欧几里德
距离
,马氏
距离
,我得到了前n个最相似标题
的
结果,但是所有的结果看起来都很合理,如何比
浏览 0
提问于2019-07-30
得票数 6
回答已采纳
1
回答
如何对tf.nn.embedding_lookup进行逆向操作?
、
、
我有一个用下面的代码
创建
的
embedded_chars数组: self.input_x = tf.placeholder(tf.int32, [None, sequence_length], name=
浏览 0
提问于2017-03-30
得票数 4
1
回答
NLP如何获取两个文档
之间
的
差异
、
、
、
、
我有2个文档A-B (或2系列文档),我想要一个新
的
文档来显示这两个文档
之间
的
差异: A-Bfrom sklearn.feature_extraction.text import TfidfVectorizertfidf = TfidfVectorizer().fit_transform(d1) pairwise_
浏览 0
提问于2016-06-08
得票数 0
2
回答
用不同形状
的
张量计算
余弦
距离
、
我有下面的张量表示一个单词
向量
其中第一个维度是批次维度(即A包含两个词
向量
,每个
向量
有500个元素)B = (10, 500)C = (2, 10, 1)我看过
使用
torch.nn.functio
浏览 38
提问于2021-02-26
得票数 2
回答已采纳
1
回答
为什么Apache Mahout
使用
LP空间规范化?
、
为什么LP-空间规范化被用于Mahout VectorNormMapper
的
项目相似性。还读过2
的
范数对CosineSimilarity很有用。是否有一个直观
的
解释,为什么它被
使用
,以及如何才能确定权力
的
最佳价值为给定
的
相似性类。
浏览 2
提问于2014-04-10
得票数 0
回答已采纳
1
回答
从海量嵌入
向量
度量相似度
、
我得到了一套10,000篇期刊文章,其中包含了对应
的
第100维嵌入
向量
。(嵌入方式是未知
的
,但我猜是word2vec。
向量
值从-0.5到0.5。)在10,000篇文章名称
数据
中,有10篇是我
的
target文章。我
的
目标是找到几篇与我
的
target文章“相似”
的
文章。在阅读这个职位之后,看起来像tf-idf这样
的
词相似度度量对于我
的
任务来说是不必要
的
,因为我已经可以访问嵌入式
浏览 0
提问于2022-03-23
得票数 1
回答已采纳
1
回答
项目间
的
余弦
相似性(购买
数据
)
与
标准化
、
、
、
我
使用
表示产品用户购买行为
的
IndexedRowMatrix,为了构建产品推荐,我
使用
余弦
相似度来计算产品
之间
的
相似性。PySpark提供了一个名为columnSimilarities()
的
函数。我
的
问题是,在
使用
columnSimilarities()之前,是否需要规范每个产品
的
向量
?我读过关于归一化和
余弦
相似的文章,并且理解
余弦
相似已经对
向量
浏览 0
提问于2018-11-19
得票数 3
2
回答
如何度量两幅图像
之间
的
余弦
相似度
、
、
我有一个由5张图像组成
的
群体矩阵,其中有49个提取
的
显着性特征。我想在Matlab中计算具有相同提取特征
的
测试图像
之间
的
余弦
相似度49。
浏览 4
提问于2014-03-16
得票数 4
回答已采纳
2
回答
计算项
的
频率
向量
间
的
不同
、
假定文档是一个对象,由一个术语频率
向量
来表示。如何计算项
的
频率
向量
之间
的
不同?
浏览 0
提问于2021-09-11
得票数 0
回答已采纳
2
回答
基于关键字列表- Python从文档中提取节
、
、
、
我是NLP新手,我想问如何根据我
使用
Python
的
关键字从文本中提取句子。我
创建
了一个关键字列表,用于从文档中提取句子。如果这将是一个简单
的
标记化问题,在这个问题中,您将通过令牌循环列表,那么我如何捕获同义词或相关
的
单词?我实际上实现了文本分类
使用
TF-以色列国防军,但
与
小
的
数据
集和大量
的
关键字。我觉得这不管用。提前谢谢。 有可能应用像word2vec这样
的
预先训练过
的
模型吗?是否
浏览 0
提问于2018-07-27
得票数 2
1
回答
如何比较Python中两个文档
的
主题分布
之间
的
主题相似性?
、
、
现在我已经有了每个文档
的
主题分布,如何比较两个文档在主题中
的
相似程度?我想要一个简要
的
措施。例如,以下是两个文档
的
主题分布。总共有75个主题。为了简洁起见,我只展示了概率最大
的
前10个主题(因此主题不太合适)。(40,0.5523168)表示主题#40对于DOC #1
的
概率为0.5523168。我应该计算两个
向量
之间
的
欧几里德
距离
还是
余弦
距离
?
使用
这个概括度量,我
浏览 2
提问于2019-03-22
得票数 4
回答已采纳
点击加载更多
相关
资讯
NLP中的嵌入和距离度量
一文教你如何正确利用kNN进行机器学习
5分钟学习KNN 算法
机器学习基础:相似度和距离度量究竟是什么
RUBER:一种无监督对话系统回复质量的评价方法
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券