使用每行与向量之间的余弦距离创建数据框列

文章/答案/技术大牛

发布

1回答

、

我有以下数据帧： file_1 0.797647 ... 0.000000file_3 0.000000 ... 0.000000每一行都有一个索引(file_x)和4096列(没有名称)。我还有一个大小为4096的向量(称为test_file)，我想为它计算与df中的每一行的余弦相似度。其基本思想是将结果追加到一个新列中，我可以对该列进

浏览 8提问于2019-09-12得票数 0

回答已采纳

1回答

在MXNet中计算余弦距离

我希望能够使用MXNet计算行向量之间的余弦距离。此外，我正在处理批次的样本，并希望计算每对样本的余弦距离(即批次#1的第一行向量与批次#2的第一行向量的余弦距离)。两个向量之间的余弦距离</em

浏览 0提问于2018-04-03得票数 0

1回答

Matlab k-means cosine将所有内容分配给一个集群

、、、、

我在L2归一化的特征矩阵上使用Matlab的常规kmeans算法和'Distance'，'cosine'，'EmptyAction'，'drop‘，我有一个问题。Matlab生成的输出只是将每个数据点分配给集群1.00000，即使k=20和C中的所有质心都是NaN。对于可能导致这种情况的原因，有人有什么建议吗？矩阵的布局是(0,1，...,1,0,1，...,0,1，...,1,0,

浏览 0提问于2012-05-09得票数 1

回答已采纳

2回答

可以仅使用非空值在行之间使用余弦相似性吗？

、、

我想要找到一个查询行和另外10个行之间的余弦相似度(或者欧几里得距离，如果更容易)。这些行都是nan值，因此如果列是nan，则忽略它们。因此，我只想得到查询的每个非空列与df列中的行之间的余弦相似性。因此，对于df中的第0行，B和F在查询和df中都是非空的。然后，我想打印每行的余弦<

浏览 0提问于2019-02-11得票数 5

回答已采纳

2回答

为什么word2Vec使用余弦相似度？

、、

我一直在阅读关于Word2Vec的论文(例如)，我认为我理解训练向量以最大化在相同上下文中发现其他词的可能性。例如，对于文档来说，余弦相似性比较是有意义的.两个文档可能有不同的长度，但有相似的分布词。为什么不，比如说，欧几里得距离？

浏览 4提问于2016-07-17得票数 17

回答已采纳

1回答

欧几里德与余弦相似

、、、、

我有一个文本数据集，我用tfidf技术矢量化，现在为了进行聚类分析，我正在测量这些向量表示之间的距离。我发现一种常用的方法是用余弦相似度来度量距离，当我问为什么不使用欧氏距离时，通常的回答是，当向量的大小不同时，余弦相似性更好。由于我的文本矢量化表示是归一化的，我想知道使用余弦</em

浏览 0提问于2018-04-11得票数 2

回答已采纳

2回答

两个大小相等的向量之间的被定义为点积除以范数的乘积。为了表示向量，我有一个大型的float数组表，例如CREATE TABLE foo(vec float[])'。给定某个float数组，我需要快速(使用索引，而不是seqscan)通过余弦相似性(例如SELECT * FROM foo ORDER BY cos_sim(vec, ARRAY[1.0, 4.5, 2.2]) DESC LIMIT 10; )查找该表中最接近<

浏览 15提问于2017-06-28得票数 9

回答已采纳

1回答

如何有效地调整Gensim Doc2Vec的超参数，以达到文档相似性问题的最大精度？

、、、、

我有大约两万份文件，字数在60-150字之间。在这20K个文件中，有400个类似文件是已知的。这400个文档作为我的测试数据。目前，我正在删除这400个文档，并使用剩余的19600个文档来培训doc2vec。然后提取训练数据和测试数据的向量。现在，对于每个测试数据文档，我发现它的余弦距离与所有的19600列文件

浏览 1提问于2019-07-31得票数 1

5回答

余弦相似性与Levenshtein距离

、、、

我想知道他们之间的区别是什么，在什么情况下他们工作得最好？余弦相似是度量内积空间中两个非零向量之间相似性的度量，它度量了它们之间夹角的余弦。0°的余弦为1，对于(0，π)半径的任意角度都小于1。列文希廷距离是一个用于测量两个序列之间差异的字符串度量。非正式地说，两个单词<e

浏览 0提问于2019-11-18得票数 5

回答已采纳

2回答

如何比较文本聚类中的不同相似性度量？

、、、

我有一个包含从字幕生成的向量的数据集(每一列代表一种类型，每行代表一个电影名称)，我的目的是找到最相似的电影标题，我想使用不同的距离/相似性度量并比较它们，最好的方法是什么？现在，我尝试了L1距离，余弦相似度，欧几里德距离，马氏距离，我得到了前n个最相似标题的结果，但是所有的结果看起来都很合理，如何比

浏览 0提问于2019-07-30得票数 6

回答已采纳

1回答

如何对tf.nn.embedding_lookup进行逆向操作？

、、

我有一个用下面的代码创建的embedded_chars数组： self.input_x = tf.placeholder(tf.int32, [None, sequence_length], name=

浏览 0提问于2017-03-30得票数 4

1回答

NLP如何获取两个文档之间的差异

、、、、

我有2个文档A-B (或2系列文档)，我想要一个新的文档来显示这两个文档之间的差异: A-Bfrom sklearn.feature_extraction.text import TfidfVectorizertfidf = TfidfVectorizer().fit_transform(d1) pairwise_

浏览 0提问于2016-06-08得票数 0

2回答

用不同形状的张量计算余弦距离

、

我有下面的张量表示一个单词向量其中第一个维度是批次维度(即A包含两个词向量，每个向量有500个元素)B = (10, 500)C = (2, 10, 1)我看过使用torch.nn.functio

浏览 38提问于2021-02-26得票数 2

回答已采纳

1回答

为什么Apache Mahout使用LP空间规范化？

、

为什么LP-空间规范化被用于Mahout VectorNormMapper的项目相似性。还读过2的范数对CosineSimilarity很有用。是否有一个直观的解释，为什么它被使用，以及如何才能确定权力的最佳价值为给定的相似性类。

浏览 2提问于2014-04-10得票数 0

回答已采纳

1回答

从海量嵌入向量度量相似度

、

我得到了一套10,000篇期刊文章，其中包含了对应的第100维嵌入向量。(嵌入方式是未知的，但我猜是word2vec。向量值从-0.5到0.5。)在10,000篇文章名称数据中，有10篇是我的target文章。我的目标是找到几篇与我的target文章“相似”的文章。在阅读这个职位之后，看起来像tf-idf这样的词相似度度量对于我的任务来说是不必要的，因为我已经可以访问嵌入式

浏览 0提问于2022-03-23得票数 1

回答已采纳

1回答

项目间的余弦相似性(购买数据)与标准化

、、、

我使用表示产品用户购买行为的IndexedRowMatrix，为了构建产品推荐，我使用余弦相似度来计算产品之间的相似性。PySpark提供了一个名为columnSimilarities()的函数。我的问题是，在使用columnSimilarities()之前，是否需要规范每个产品的向量？我读过关于归一化和余弦相似的文章，并且理解余弦相似已经对向量

浏览 0提问于2018-11-19得票数 3

2回答

如何度量两幅图像之间的余弦相似度

、、

我有一个由5张图像组成的群体矩阵，其中有49个提取的显着性特征。我想在Matlab中计算具有相同提取特征的测试图像之间的余弦相似度49。

浏览 4提问于2014-03-16得票数 4

回答已采纳

2回答

计算项的频率向量间的不同

、

假定文档是一个对象，由一个术语频率向量来表示。如何计算项的频率向量之间的不同？

浏览 0提问于2021-09-11得票数 0

回答已采纳

2回答

基于关键字列表- Python从文档中提取节

、、、

我是NLP新手，我想问如何根据我使用Python的关键字从文本中提取句子。我创建了一个关键字列表，用于从文档中提取句子。如果这将是一个简单的标记化问题，在这个问题中，您将通过令牌循环列表，那么我如何捕获同义词或相关的单词？我实际上实现了文本分类使用TF-以色列国防军，但与小的数据集和大量的关键字。我觉得这不管用。提前谢谢。有可能应用像word2vec这样的预先训练过的模型吗？是否

浏览 0提问于2018-07-27得票数 2

1回答

如何比较Python中两个文档的主题分布之间的主题相似性？

、、

现在我已经有了每个文档的主题分布，如何比较两个文档在主题中的相似程度？我想要一个简要的措施。例如，以下是两个文档的主题分布。总共有75个主题。为了简洁起见，我只展示了概率最大的前10个主题(因此主题不太合适)。(40，0.5523168)表示主题#40对于DOC #1的概率为0.5523168。我应该计算两个向量之间的欧几里德距离还是余弦距离？使用这个概括度量，我

浏览 2提问于2019-03-22得票数 4

回答已采纳

点击加载更多