如果k非常小,那么k个字符的序列会出现在大多数的文档中,如k=1,许多文档都有相同的字符,几乎所有的文档都有很高的相似性。...如果k应该足够大,那么对于给定的shingle出现在不同的文档中的概率是非常低的。...( { doc, ocu, cum, ume, men, ent } ,{mon, onu, num, ume, men, ent } ) = 3/9
对于电子邮件的语料库,k=5就足够了,因为在电子邮件中出现的英文字母和空白字符有...集合的特征矩阵
矩阵的列对应集合,行对应从文档中(或者universal set)获取到的元素,如果r行是c列的集合元素,就将矩阵的r行c列设置为1,否则为0。...注意:signature矩阵和特征矩阵M有相同的列数,但是只有n行,要比M矩阵小的多。
显然对一个很大的特征矩阵做置换是不可行的,但是可以通过随机hash函数模拟随机置换效果,将行号映射到桶的编号。