minhash - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

局部性散列-弹性搜索

、、

谢谢编辑:我发现ES使用MinHash插件。如何将文档与其他文档进行比较？什么是寻找副本的好环境？

浏览 10提问于2015-09-25得票数 17

1回答

极慢的火花源滤波器

、、

我正在对一个pyspark dataframe执行一个简单的过滤操作，它有一个minhash jaccard相似性列。minhash_sig = '123'，'345‘ minhash_sig = [str(x) for x in minhash.signature(doc)] # columns are id, and minhash_arr

浏览 20提问于2021-08-30得票数 0

回答已采纳

1回答

LSH宾宁在飞

、、

我想使用MinHash LSH将大量文档放入类似文档的桶中(Jaccard相似性)。问题：是否有可能在不知道其他文档的MinHash的情况下计算MinHash的桶？在了解所有文档的MinHash之后，我可以查询与给定文档类似的LSH文档。然而，在了解其他文档之前，我看不出如何获得单个文档的桶。

浏览 2提问于2019-06-01得票数 0

回答已采纳

2回答

快速可扩展的相似性检测

、、

浏览 3提问于2012-12-04得票数 1

回答已采纳

1回答

为什么最小哈希算法使用随机排列而不是随机选择？

利用MinHash算法计算了两组集的相似度。MinHash的计算值与Jaccard相似系数接近。Minhash步骤是：对1.2^m应用随机置换重复步骤2和3，n次。为什么该算法对哈希值进行随机排列并选择minHash？为什么不直接从每个集合中选择一个随机散列并对它们进行比较呢？

浏览 0提问于2022-06-11得票数 0

1回答

以表明我想要一个固定长度的数组列，实际上我并不想找到min或max) docID Shingles散列D1 23、25、39、59 D2 34、45、65 我创建了udf，如下所示： def generate_minhash_signaturesshingleID > maxHashCode: return [minHashCode, maxHashCode] minhash_udf= udf(generate_minhash_signatures, A

浏览 139提问于2019-02-07得票数 0

回答已采纳

1回答

将列表与pyspark列中的每个元素进行比较

、、、、

我有一个列表minhash_sig = '112'，'223'，我想找到这个列表和pyspark列中的每个元素之间的jaccard相似性。不幸的是，我不能这么做。spark.createDataFrame( (1, ['112','333']), ], ["id", "minhash"] # add

浏览 5提问于2021-08-28得票数 1

回答已采纳

1回答

基于minhash算法的Pairiwse jaccard相似度

、、、

我正在处理200k个句子，我想使用minhash算法找到Jaccard相似度。但由于有两个for循环，它变得非常慢。有人能给我推荐一些好的实现方法吗？下面是我当前的代码 m1 = MinHash() for d in data1: m1.update(d.encode('ut

浏览 9提问于2020-06-19得票数 0

2回答

Snowflake中的相关子查询不起作用

DATEDIFF('day', first_action.date, returning_action.date) - 1 as diff, FROM (select cast(_time as date) as date, minhashas user_id_set from events group by 1) as f

浏览 40提问于2019-04-06得票数 0

1回答

数据草图: MinHash LSH森林

、

我正在尝试创建一个用于最近邻搜索的forst，但我不确定这样做是否正确，或者甚至不确定MinHash / LSH是否适合我的数据。我问这个是因为结果是不可用的。512维，例如值有点，例如0或1，这对于MinHash / LSH是可用的吗？如果是，我该如何为每条记录构造MinHash？据我所知，minhash的意义已经是将数据映射到这样的位结构了？这样我就可以把比特装进去了？就像在h = MinHash(num_perm=512, hashvalue

浏览 4提问于2018-04-03得票数 2

1回答

如何在NEST中使用ElasticSearch MinHash插件

、

如何在nest中使用minhash？

浏览 12提问于2015-03-16得票数 0

回答已采纳

1回答

如何计算python中顺序很重要的多个列表的Jaccard索引

、、

, 1, 1, 0, 1],[1, 1, 0, 1, 0, 1],import itertoolsfor element in Selected_Features:for d in element: m.update(str(d).encode("utf-

浏览 16提问于2021-08-30得票数 0

2回答

是否有对距离的聚类算法，而不计算所有成对距离？

、、、

我正在寻找一种聚类算法，通过使用对象的成对距离来对对象进行聚类，而不需要计算所有成对距离。计算对象的所有成对组合之间的全距离矩阵然而，计算所有对组合对象的全距离矩阵在计算上是非常昂贵的。所以我的想法是，是否有一些聚类算法只对成对距离的子集进行查找，所以不需要计算整个矩阵？很想听听你的想法，谢谢！

浏览 0提问于2019-03-08得票数 5

回答已采纳

2回答

哪个minhash比simhash更有优势？

、、、

我正在使用simhash，但也看到minhash更有效。请给我解释一下: minhash比simhash更有优势的是什么？

浏览 9提问于2016-04-15得票数 3

1回答

使用通配符的Elasticsearch minhash前缀查询？

、、、

我为一些文本生成了minhash字段(基于minhash算法)，现在我的问题是，是否可以使用通配符来补充或添加前缀查询？

浏览 5提问于2019-03-28得票数 0

1回答

使用Spark (Java)实现min散列LSH

、、

这是相当长的时间，我对此感到抱歉。+--------+------+------+------+------++--------+------+------+------+------+| c | 0 | 1 | 0 | 1 | | a | 1 | 0 | 0 | 1

浏览 7提问于2018-02-05得票数 0

1回答

使用LSH进行近似字符串匹配

、、、

我想使用位置敏感的散列来近似匹配字符串。我有很多可能包含拼写错误的Strings>10M。对于每个字符串，我想与所有其他字符串进行比较，并根据某个阈值选择具有编辑距离的字符串。但是，我不知道如何表示字符串。如果它是文本，我会在向量空间中表示。我的主要问题是，使用LSH，然后使用适当的字符串矢量表示，这是否容易处理。我可以使用一个已经实现的库来完成这个任务吗？或者这取决于我的问题，所

浏览 6提问于2014-08-04得票数 21

2回答

将字符串从一个numpy数组匹配到另一个

、

嗨，我正在和python 3合作，我已经面对这个问题很长一段时间了，我似乎搞不明白这一点。array_one = np.array(['alice', 'in', 'a', 'wonder', 'land', 'alice in', 'in a', 'a wonder', 'wonder land', 'alice in a', 'in a wonder', 'a w

浏览 0提问于2018-02-21得票数 5

回答已采纳

1回答