前言
前两天, 一个大学同学问我布隆过滤器, 我本想反手甩他一篇我写的文章, 尴尬的是我找了找发现没有写过.......既然一个数字会发生碰撞, 那我一个链接生成10个数字, 你如果10个数字同时碰撞的概率就小得多了吧. 至此, 布隆过滤出来了....如果你需要确定的知道它有没有存在, 就只能将它自身进行存储, 在节省空间的时候本身就已经丢失了部分精度. 但是无妨, 我们的爬虫还是能够容忍这种情况的.
介绍完毕, 这就是布隆过滤器了....完事
看了上面, 布隆的基本概念也齐活了. 布隆的特点如下:
说你不在, 你一定不在
说你在, 你可能在
其适合于这种允许存在一定误判的场景. 也就是宁可放过一个, 绝不错杀一千的场景....看了布隆过滤器, 其涉及的大小只有两个, 1. 数组的大小. 2. hash函数的个数. 而选取合适的值就可以尽量的降低误判概率. 涉及高深的数学领域, 咱也不太懂.