最小哈希
什么叫最小哈希,我的理解是,一个很大的集合进行哈希处理的过程其实是由很多小的哈希过程组成。而这些最小的哈希过程就被称为是最小哈希。最小哈希的具体内容就是把一个集合映射到一个编号上。...比如对于集合U=\{a,b,c,d,e\},S_1:\{a,d\},S_2:\{c\},S_3:\{b,d,e\},S_4:\{a,c,d\},我们用一个矩阵形式来表示他们:
\begin{matrix...当然,随便找的h(x)=ax+b这种哈希函数显然可能会冲突,不过只要n和a互素,那么生成的一定是一个排列,这一点用同余类的知识很好证明。
不过显然,一次最小哈希的结果不能全面的表现出集合的特征。...因此最小哈希签名采用了k个不同的哈希函数h_1,h_2,h_3,......,h_k,对于集合S,分别调用这些函数作为最小哈希的排列函数,构建出集合S的最小哈希签名[h_1(S),h_2(S),h_3(S),...,h_k(S)]。