跳转到内容

布隆过滤器

本页使用了标题或全文手工转换
维基百科,自由的百科全书

布隆过滤器(英语:Bloom Filter)是1970年由伯顿·霍华德·布隆(Burton Howard Bloom)提出的。[1]它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。

基本概念

[编辑]

如果想判断一个元素是不是在一个集合里,一般想到的是将集合中所有元素保存起来,然后通过比较确定。链表散列表(又叫哈希表,Hash table)等等数据结构都是这种思路。但是随着集合中元素的增加,我们需要的存储空间越来越大。同时检索速度也越来越慢,上述三种结构的检索时间复杂度分别为

布隆过滤器的原理是,当一个元素被加入集合时,通过K个散列函数将这个元素映射成一个位数组中的K个点,把它们置为1。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检元素一定不在;如果都是1,则被检元素很可能在。这就是布隆过滤器的基本思想。所以布隆过滤器可能会产生假阳性(误报),但不会产生假阴性(漏报)。

算法描述

[编辑]
布隆过滤器示例,表示集合{x, y, z} 。彩色箭头显示每个集合元素映射到位数组中的位置。元素w不在集合{x, y, z} 中,因为它散列到一个包含“0”的位数组位置。本例中,m = 18k = 3

一个“空布隆过滤器”是一个由m位组成的位数组(英语:bit array),所有位都被设置为0。它配备了k个不同的散列函数,这些函数将集合元素映射到m个可能的数组位置之一。为了达到最佳效果,散列函数应为均匀分布独立。通常,k是一个小的常量,它取决于期望的假阳性(误报)率ε,而mk和要添加的元素数量成正比。

要“添加”一个元素,将其分别输入到k个散列函数中,以获得k个数组位置。将所有获得的位置的位设置为1。

要“检验”一个元素是否在集合中,将其输入到每个k散列函数中,以获得k个数组位置。如果这些位置“存在”位为0的位置,则该元素一定不在集合中;如果它在集合中,那么当它被插入时,所有位都应该已经是1。如果所有位都已为1,说明该元素可能在集合中,又或许这些位是在插入其他元素时碰巧被设置为1,从而导致假阳性。就一个简单的布隆过滤器而言,并不能区分这两种情况,但更先进的技术可以解决这个问题。

设计k个不同的独立散列函数的要求对于大的k可能是难以实现的。对于一个具有宽输出的良好散列函数,这种散列的不同位域之间应该几乎没有相关性,因此这种散列类型可以用于通过将其输出切片成多个位域来生成多个“不同”的散列函数。或者,可以将k个不同的初始值(例如0, 1, ..., k − 1)传递给一个接受初始值的散列函数;或者将这些值加入(或追加)到键。对于较大的m和/或k,散列函数之间的独立性可以放宽,而假阳性率的增加可以忽略不计。[2](具体而言,Dillinger & Manolios (2004b)展示了使用增强双重散列三重散列双散列的变体,实际上是用两个或三个散列值播种的简单随机数生成器)导出k个索引的有效性。)

这样简单的布隆过滤器无法移除元素,因为无法得知它映射到的k位中的哪些位应该被移除。虽然将这些k位中的任何一位设置为零足以移除该元素,但它也会移除任何恰好映射到该位的其他元素。由于简单的算法没有提供任何方法来确定是否已添加任何其他影响要移除元素的位的元素,因此清除任何位都会引入假阴性(漏报)的可能性。

若要模拟从布隆过滤器中一次性移除元素的操作,可以引入一个辅助布隆过滤器(“移除过滤器”),用于存储已移除的元素。 然而,第二个过滤器中的假阳性会变成复合过滤器(“原过滤器”与“移除过滤器”的联合体)中的假阴性,这是不被希望遇到的。在这种方法中,却无法重新添加先前被移除的元素,因为还须将其从“移除过滤器”中移除,这又会回到最初的问题。

常见的情况是,所有键(待过滤的所有元素)都能够被获取(可用),但枚举它们的代价较高(例如,需要多次的硬盘读取)。当假阳性率变得太高时,可以重新生成过滤器;但此类事件应该是相对罕见的。

优点

[编辑]

相比于其它的数据结构,布隆过滤器在空间和时间方面都有巨大的优势。布隆过滤器存储空间和插入/查询时间都是常数()。另外,散列函数相互之间没有关系,方便由硬件并行实现。布隆过滤器不需要存储元素本身,在某些对保密要求非常严格的场合有优势。

布隆过滤器可以表示全集,其它任何数据结构都不能;

相同,使用同一组散列函数的两个布隆过滤器的交并[来源请求]运算可以使用位操作进行。

缺点

[编辑]

但是布隆过滤器的缺点和优点一样明显。误算率是其中之一。随着存入的元素数量增加,误算率随之增加。但是如果元素数量太少,则使用散列表足矣。

另外,一般情况下不能从布隆过滤器中删除元素。我们很容易想到把位数组变成整数数组,每插入一个元素相应的计数器加1, 这样删除元素时将计数器减掉就可以了。然而要保证安全地删除元素并非如此简单。首先我们必须保证删除的元素的确在布隆过滤器里面。这一点单凭这个过滤器是无法保证的。另外计数器回绕也会造成问题。

在降低误算率方面,有不少工作,使得出现了很多布隆过滤器的变种。

参考

[编辑]

引用

[编辑]

文献

[编辑]

外部链接

[编辑]