pandas:根据另一列中的值计算每一行的jaccard相似度

文章/答案/技术大牛

发布

2回答

在dplyr中使用列表列函数进行变异

、、

我试图计算源向量和比较向量之间的Jaccard相似度。首先，使用names_字段(字符串向量)创建一个tibble。使用dplyr的变异，创建一个列表列names_vec，其中每一行现在都是一个向量(向量的每个元素都是一个字母)。然后，使用列jaccard_sim创建一个新的tibble，用于计算Jaccard的相似<

浏览 6提问于2017-10-23得票数 15

回答已采纳

2回答

、、

我有一个数据帧，如下所示，只是有更多的行： import pandas as pd df = pd.DataFrame (data, columns = ['First&#x

浏览 14提问于2020-12-15得票数 0

回答已采纳

1回答

如何使用计算值在dataframe中添加另一列

、、、、

我现在有两个函数，一个计算相似度，另一个计算情感，这两个函数都从数据框中获取输入，我正在尝试做的是在数据框中创建另一个列，使用计算的值，如相似度和情感(Pos/Neg)i=0

浏览 7提问于2017-12-13得票数 0

1回答

如何使用pandas列和字典高效地构建特性？

、、、、

我遇到了一个机器学习问题，我正在用字典的值计算pandas数据帧文本列的二元语法Jaccard相似度。目前，我将它们存储为列表，然后将它们转换为列。这在生产中被证明是非常慢的。有没有更有效的方法呢？以下是我目前正在遵循的步骤:对于dict中的每个键: 1.获取pandas列和dictkey<e

浏览 21提问于2019-10-06得票数 1

回答已采纳

1回答

jaccard相似性的绘图热图

、、、、

考虑如下所示的数据帧。import pandas as pd {'col1':'101', 'col2': '101', 'col3':'1321'}, {'col1':'1321', 'col2&

浏览 9提问于2021-06-17得票数 0

回答已采纳

1回答

计算不同长度DataFrame列之间的Jaccard相似度

、、、

我有一个数据帧，其中user_ids作为列，他们喜欢的电影的ids作为行值。(即每个用户使用他们喜欢的电影)之间的Jaccard相似度。当我尝试使用sklearn中的jaccard_similarity_score时，Python显示以下错误：理想情况下，我希望得到一个矩阵，其中包含user_id<e

浏览 7提问于2017-08-15得票数 1

回答已采纳

1回答

从稀疏数组高效计算成对Jaccard相似度

、、、、

我有一个类似下面的数组，每一行是一个观察值，每一列是一个特征： import scipy my_sparse_array = scipy.sparse.random(2000, 10000000, density=0.01, format='csr') 对于每对观察值(行)，我要计算它们之间的Jaccard相似度-考虑到数组中的非零值<

浏览 25提问于2018-12-26得票数 0

回答已采纳

2回答

在Python中计算Jaccard相似度

、、、、

我有20,000个文档要计算真正的Jaccard相似度，以便以后可以检查MinWise散列对它的近似程度。每个文档都表示为数字矩阵中的一列，其中每一行都是一个单词，要么出现在文档中(entry=1)，要么不出现(entry = 0)。大约有600字(行)。因此，例如，第1列将是1 0 0 0 1 0 0 0 1，这意味着单词1,7,11出现在其中

浏览 0提问于2016-11-14得票数 8

回答已采纳

1回答

包含与Jaccard相似的SQL查询的联合和交集

、、、、

FOREIGN KEY (cid) REFERENCES Customer(cid),只考虑那些至少购买了一次的顾客对于每一对这类客户，计算他们购买的产品的Jaccard相似性。也就是说，如果客户A已经购买了a的产品，而客户B已经购买了b的产品集，它们的Jaccard相似性是两个集合<

浏览 1提问于2016-02-16得票数 1

回答已采纳

1回答

为什么最小哈希算法使用随机排列而不是随机选择？

利用MinHash算法计算了两组集的相似度。MinHash的计算值与Jaccard相似系数接近。Minhash步骤是：对1.2^m应用随机置换重复步骤2和3，n次。计算集的最小指数的最小值等于/n的次数(tihs接近<em

浏览 0提问于2022-06-11得票数 0

1回答

我收到错误AttributeError：‘AttributeError’对象没有'split‘属性

、、、、

我有两行，第一行和第二行，每一列都有单词(每一行基本上是一个文本)。我想看到相似之处。我没有频率，只有单词，但据我所知，这个算法也给了我频率。name: str, value) -> None: 我想拆分每个单词，并获得文本中每个单词之间的频率和相似度当我打

浏览 10提问于2021-09-11得票数 0

2回答

从scipy.pdist(myArray，metric="jaccard")获取结果索引，以映射回原始数组？

、、、、

我在试着计算jaccard的相似性X是一个m x n矩阵，作为这个函数的结果，我得到了一个大小为m choose 2的一维数组。我如何将相似值映射回一个对称数组，或者(不对称数组无论哪种方式都可以)，这样我就可以从X(X中的每一行都

浏览 5提问于2015-02-09得票数 1

回答已采纳

1回答

但我担心的是，如果用户想要添加标记(例如，[b]标记)，我需要知道他们想要将其包含在何处。为此，我需要确切地知道应该在bbcode中的什么位置插入标记。我想比较一下这两个文本(一个使用<span>这样的html标签，另一个使用[b]这样的bbcode标签)，这就是我在努力的地方。我做了一些研究，但找不到任何对我有帮助的东西，或者我没有正确理解它(也许我做错了研究)。我能找到的是Jaccard index

浏览 0提问于2018-08-27得票数 0

4回答

如何从python中的列表中删除重复项

、、

如果item2和item3相似，则结果将变成list = ['item1', 'item2', 'item4']很抱歉我的问题让人困惑。列表项是三联图的集合。我想在列表中删除类似的项目。list = [('very','beauty','place'),('very','good','place'),('another&#x

浏览 6提问于2013-09-16得票数 1

回答已采纳

1回答

如何选择埃尔斯丁LSH Jaccard相似指数参数L和k？在我的例子中，最小散列大小= 100，jaccard相似性= 0.8

、、、

我正在尝试使用Elasticknn插件来检测接近重复的插件。我已经创建了文本文档的Minhash，其minhashes size = 100根据我对LSH，Minhash重复检测算法的了解，根据jaccard相似度的要求级别(例如0.8)，我们必须选择 r 桶数b

浏览 4提问于2021-10-12得票数 0

1回答

在没有笛卡尔的星火和Scala的帮助下，RDD的Jaccard相似性？

、、

我的目标是计算rdd值集之间的jaccard相似度，并根据我的RDD的jaccard相似阈值value.Structure对它们进行聚类： val a= [Key,Set(String)] //Pair在找到jaccard相似性之后，我会将相似的实体聚到一个集群中。在上面的例子中

浏览 1提问于2018-03-09得票数 2

回答已采纳

1回答

基于关键字数量的文档与其他文档相关的概率

、

如果用户搜索单词"Computer“，并且我想显示基于关键字"Computer”的最相关的文档。我的算法根据关键词在文档中出现的次数来选择最相关的文档。唯一的问题是文档X有10个单词，"Computer“出现两次，而文档Y有1000个单词，"Computer”出现100次。从文档中的字数来看，说文档Y比文档X更相关是不正确的。如何对此进行规范化，以获得最准确的

浏览 8提问于2016-01-09得票数 0

1回答

如何使用python检查两个不同excel文件中的两个列表之间的相似性？

、、

我有两个包含客户姓名的列表。名称可以相似，也可以不同。如何使用python查找这两个列表之间的相似性？在有了相似性之后，我想把相应的数据从一个excel文件拉到另一个。我尝试了Jaccard相似度，将两个列表分别作为excel文件传递给函数，但结果(即Jaccard相似度)始终为零。编辑:如何遍历两个列表，将每个元素与其他列表中的</e

浏览 5提问于2018-10-29得票数 0

1回答

如何避免R中的循环？

、

我正在用R来处理一个项目，这个项目是，给出一个节点间边缘的大数据，来测试测试边是否为真。就像在项目中一样，基本元素应该是“边”，这样我们就可以判断给定的边是否是真实的。所以问题就来了。我们创建了一个由“从”节点和“到”节点的两列组成的数据框架来表示边缘，这是edgesData，然后我们从它创建了一个图，它使用igraph，即graph.We可以计算两个特定节点的相似性，使用 similarity.jaccard我试过

浏览 4提问于2015-08-24得票数 0

回答已采纳

2回答

用于Excel模糊查询的算法

、、、

我正在做两组公司名称的匹配工作。我试着用Python编写代码，使用Levenstien的距离。我遇到了公司缩写的问题，以及他们的尾随部分，比如Pvt，Ltd。我已经用Excel模糊查找运行了相同的集合，并获得了良好的结果。我有一种方法，我可以看到excel模糊查找是如何编码的，并使用python中的相同实现。

浏览 25提问于2018-09-28得票数 1

点击加载更多

在dplyr中使用列表列函数进行变异