这里面讲述了如何计算两个集合的Jaccard相似度:|A∩B||A∪B| 。这个公式对于去重来说没什么卵用,因为计算量还是那么大。...这样,当我们知道n时,只要找到与n互质的100或者200个数就行,甚至可以找到小于n的100个或者200个素数(素数筛法大家自行百度),然后再随机生成100次到200次b,就能构造出一批这样的函数。...集合求并
看如下样例:
A -> B,C,D
E -> C,D,F
由于两个集合中有相同的ID,我们推测这两个集合其实属于一个簇,如何实现两个集合的并?...union_find_set.join(E,C)
union_find_set.join(E,D)
union_find_set.join(E,F)
调用完操作后,我们会发现A,B,C,D,E,F都属于同一个集合...保留哪些题目,去除哪些题目?
考虑到搜索引擎在存储倒排是按照题目ID大小进行排序的(存放ID与ID之间的差值),所以留下小的ID去掉大的ID非常必要,这个不难实现。