布隆过滤器
假设有 20 亿个 QQ 号码,里面有一些是重复的,如何去重?
一般来讲,对于数据量较小的集合,我们可以使用 HashSet 去重,但由于 HashSet 底层的数据结构是数组+链表(可能会有红黑树),在数据量变大时插入效率会下降很多,且在集合中保存 20 个 QQ 号码也会占用大量内存资源。
因此此类问题的常见方法是使用 bitmap 或布隆过滤器,布隆过滤器相比 bitmap 的优点是集合大小不受元素数量影响。接下来就着重介绍布隆过滤器。
布隆过滤器是由 BURTON H. BLOOM 在 1970 年提出的一种哈希方法,用于判断一个元素是否存在于某个集合中。HashSet 或其他的数据结构都使用了传统的哈希方法,得到的结果是准确的,而布隆过滤器得到的结果不一定准确,因为它使用了一种近似的哈希算法。
那为什么还要使用它呢?因为数据量变大时,假如达到了 1 亿,传统的哈希方法效率将变低,布隆过滤器的性能却仍然很好。以下是论文的部分介绍,有兴趣的可以看下原论文。
传统哈希方法
先来回顾下传统的不允许错误的传统哈希方法。假设我们存储 n 条消息,每条消息有 b 位长。首先,我们将哈希区域分成 h 个单元,每个单元有 b + 1 位,h > n。多出来的 1 位用来标志该单元是否为空。所以每条消息是 b + 1 位,第一位始终为 1。存储过程如下:
生成一个哈希地址 k,0 <= k <= h - 1,这个哈希地址是一个伪随机数,检查第 k 个单元是否为空,如果为空,则将数据存储在第 k 个单元;否则再次生成一个哈希地址,直到该地址下的单元为空,然后把数据存储在这个单元里。
判断一个消息是否在集合中的原理类似,仍然继续生成哈希地址,直到满足以下条件之一:
- 找到一个单元,其中存储了与当前消息相同的数据,这种情况下,该消息数据该集合
- 找到一个空的单元,意味着该消息不属于该集合
允许错误的两个方法
方法 1
方法 1 是从传统的无误差方法中自然推导出来的,思路是集合中并不直接保存元素本身,而是将元素编码为 code 后保存,code 比元素本身小,从而能使集合容纳更多的元素。
code 设置为多大?code 的大小取决于你允许它犯错的概率,即误差分数。误差分数越大,code 越小;误差分数越小,code 的越大且越接近元素本身大小。当误差分数足够小时(约 2 的 -b 次方),code 大小几乎和元素本身一致。如果 P 表示误差分数,则 1 >> P >> 2 的 -b 次方。
所以假设 code 的大小为 c,则 c < b,且 c 的大小应使预期的错误分数接近并小于 P,哈希区域的每个单元的第一位仍然为 1。由于两个不同的消息可能转为同一个 code,所以这种方法会有一定的误差。
方法 2
网上文章讲述的大多是此方法,即将哈希区域被设置为 N 个单独的位置,从 0~N-1,这 N 个位置初始值都是 0,首先,需要将集合中的每个元素使用哈希算法映射在不同的地址上,将这些位置值为 1。当要判断一个元素是否存在某个集合中时,使用同样的哈希算法进行散列,如果对应位置的值都是 1,我们认为这个元素“可能”存在,反之一定不存在。
为什么是“可能”呢?因为随着元素变多,值为 1 的位置将越来越多,可能要判断元素的散列位置,被其他元素恰好都置为 1 了,这时我们以为该元素存在,实际上不存在。
实践
引入 maven 包:
<dependency>
<groupId>com.google.guava</groupId>
<artifactId>guava</artifactId>
<version>28.0-jre</version>
</dependency>
创建一个集合,集合中放 1 亿个元素 0~99999999,然后判断 10000~100009999 在集合中的个数,理论上应该是 99990000 个,实际输出结果是 99990291 个。所以也验证了布隆过滤器确实存在一定误差。
public class BloomFilterDemo {
public static void main(String[] args) {
int total = 100000000;
// 集合中放 1 亿个数
BloomFilter<Integer> bf = BloomFilter.create(Funnels.integerFunnel(), total);
for (int i = 0; i < total; i++) {
bf.put(i);
}
// 判断 1 亿个数是否存在集合中
int ret = 0;
for (int i = 10000; i < total + 10000; i++) {
if (bf.mightContain(i)) {
ret++;
}
}
System.out.println(ret);
}
}
参考
- Space/time trade-offs in hash coding with allowable errors:https://dl.acm.org/doi/10.1145/362686.362692
- 5 分钟搞懂布隆过滤器,亿级数据过滤算法你值得拥有!:https://juejin.cn/post/6844904007790673933