BloomFilter的错误率保证

自从知道BloomFilter这个索引方法，我就迫不及待的开始使用了。但是一直都只是明白个原理。用起来也觉得不亦乐乎。

这周末把《数学之美》这本书看了一遍，很多收获。很多方法自己都曾经接触过、了解过。经过作者一深入浅出的介绍，让自己对这些方法又多了一些理解。就像这个BLoomFilter一样，这次看了以后，尤其是作者顺手还给出了错误率的估算，我还看懂了，就感到很惊喜。以前看论文的时候，我都是直接忽略这些理论的证明的，只看原理。

我感觉我现在也能随手写出BloomFilter的错误率估算了。来一个。

当给定条件：

m：过滤器的bit长度

k：哈希函数的个数

n：插入过滤器的元素个数

我们知道一个元素经过k个哈希函数后，会导致bit串中k个位置被置为1。于是，对比特串中的第i个位置来说，其被一个哈希函数置为1的概率为：1/m，则其依然为0的概率为1-1/m。对一个元素来讲，如果经过k个哈希函数都没有把第i个位置的值置为1的概率就应该是(1-1/m)^k，对第二个元素还是没有能把这个位置的值置为1的概率就为(1-1/m)^2k，依次类推，n个元素过后，i位置仍旧为0的概率是(1-1/m)^nk。反过来，在经过n次增加修改比特串后，某个比特位为1的概率是1-(1-1/m)^nk。也就是说，这是建立好查询索引后，每个为1的比特位都不是100%的可信的，因为哈希会有冲突的，于是，对一个查询元素，经过k个哈希函数后查得k个比特位都为1的概率是(1-(1-1/m)^nk)^k。这个值是很小的，特别是在当我们可以预估要索引的元素大概有多少数量时，我们可以留出充分多的bit位（1024个比特位，也就才1k的大小），这个充分对内存来说是很easy的，和多设几个哈希函数，就能把错误率限制在一个很小的范围内。

这个在海量数据查询时，查询效率是O(K)的，一个常数级别的、一般都是个位数的复杂度。内存开销也小。特别适合海量数据查询和容许一点点错误率的使用环境。我在做词典检索时就用的这个，还有人用于爬虫中url的重复性检测，等等。不好的是，不支持删除操作（但可以重新建一个BloomFilter来记录删除的元素）。

Bloom Filter(布隆过滤器)

Bloom Filter 是一个空间效率极高的概率型算法和数据结构，用于判断一个数据是否在集合中（类似 Hashset），核心是二进制向量和 hash 函数 [图片] 优缺点优点全量存储但是不存储数据本身，适合有保密要求的场景空间效率高插入和查询时间复杂度都是 O(k),远超一般算法。缺点存在误算率，数据 ..

HashMap 源码解读

数据结构 HashMap 整体结构为数组 + 链表(解决 hash 冲突) length 数组默认的 length 为 16，填充因子为 0.75，即当数组填充了 length*0.75 个后数组开始扩容为 length<<1 put 根据新计算的 hash 值取模数组长度，得到散列的 index，若当前 ..

Mysql 几种索引方式的区别及适用情况

转自 [链接] Mysql 目前主要有以下几种索引方式：FULLTEXT，HASH，BTREE，RTREE。那么，这几种索引有什么功能和性能上的不同呢？ FULLTEXT 即为全文索引，目前只有 MyISAM 引擎支持。其可以在 CREATE TABLE ，ALTER TABLE ，CREATE INDEX 使用，不 ..

MySQL 索引类型总结和使用技巧以及注意事项

转自 [链接] MySQL 索引类型包括：一、普通索引这是最基本的索引，它没有任何限制。它有以下几种创建方式： 1.创建索引 CREATE INDEX indexName ON mytable(username(length)); 如果是 CHAR，VARCHAR 类型，length 可以小于字段实际长度；如果是 ..

如果可以只同步一个笔记本就好了

一个工作空间里使用久了，总量文件未免会很大，有些设备上的场景其实只需要一个笔记本或者几个笔记本，如果能够只同步一个或者某些笔记本，似乎会比较好不知道大佬是否考虑这个方案呢

我在每周固定获取信息流

信息流每周信息梳理上周时间花费没有每天看新闻, 之前我都有每天看 folo 的习惯但是考虑到信息焦虑, 我依然开始使用 perplexity 看信息, 然而这比我之前花费的时间少多了但是我依然在看 bili, 看 zhihu 对于 bili, 我认为这个平台已经没有优质内容了, 即使有, 也是藏在一堆里面, ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

BloomFilter的错误率保证

相关帖子

Bloom Filter(布隆过滤器)

HashMap 源码解读

Mysql 几种索引方式的区别及适用情况

MySQL 索引类型总结和使用技巧以及注意事项

如果可以只同步一个笔记本就好了

我在每周固定获取信息流

移动端希望加入取消左划目录，右划设置的开关

欢迎来到这里！

近期热议

推荐标签标签

组织简介

用爱发电组织的核心驱动力：

最新标签

BloomFilter的错误率保证

相关帖子

Bloom Filter(布隆过滤器)

HashMap 源码解读

Mysql 几种索引方式的区别及适用情况

MySQL 索引类型总结和使用技巧以及注意事项

如果可以只同步一个笔记本就好了

我在每周固定获取信息流

移动端希望加入取消左划目录，右划设置的开关

欢迎来到这里！

近期热议

推荐标签 标签

组织简介

用爱发电组织的核心驱动力：

最新标签

推荐标签标签