标签:数组 int 布隆 哈希 简单 过滤器 public 函数
实现一个简单的布隆过滤器
1 什么是布隆过滤器
布隆过滤器是一个叫Bloom的人提出来的,其数据结构是一个只包含01的数组,即位数组+随机散列函数(hash函数),主要用于判断一个元素在一个亿级容量的容器中是否存在。常用于解决Redis的缓存穿透。其优点是效率高,占用空间少;缺点是容易产生误判(有很小的几率会将不存在的元素判断为存在),并且数据不容易被删除。
2 怎样实现的?
图片源自:JavaGuide
结构:
- 定义一个位数组,默认都为0
- 实现若干个哈希函数
原理:
- 对一个元素进行添加操作时,分别用这若干个哈希函数对数据进行运算,将位数组中对应索引位置的元素变为1
- 判断某一个元素是否存在时,对每一个哈希函数计算出来的哈希值在数组中对应位置值是否为1,如果都为1,则判定为存在。
注意:由于哈希函数会存在哈希碰撞,因此可能某些哈希函数计算出来的值相同,会将不存在的元素判断为存在,只不过这样的概率极小而已(这种情况一般调整哈希函数或对数组进行扩充)。
3 使用场景
- 判断给定数据是否存在,Redis中防止缓存穿透,邮箱的垃圾邮件过滤、黑名单功能等等。
- 去重:如爬给定网站的时候对已爬取的url进行去重。
4 设计一个简单的布隆过滤器
public class MyBloomFilter {
// 位数组的大小
private final static int DEFAULT_CAPACITY = 2 << 22;
// 实现不同hash函数的参数数组
private final static int[] SEEDS = {3, 13, 46, 76, 91, 138};
// 定义位数组
private final BitSet bits = new BitSet(DEFAULT_CAPACITY);
// 存放哈希函数的类数组
private final SimpleHash[] func = new SimpleHash[SEEDS.length];
// 对哈希函数进行初始化
public MyBloomFilter() {
for (int i = 0; i < SEEDS.length; i++) {
func[i] = new SimpleHash(DEFAULT_CAPACITY, SEEDS[i]);
}
}
// 添加元素到位数组操作
public void add(Object value) {
for (int i = 0; i < SEEDS.length; i++) {
bits.set(func[i].hash(value), true);
}
}
// 判断是否存在操作
public boolean contains(Object value) {
boolean ret = true;
for (SimpleHash f : func) {
ret &= bits.get(f.hash(value));
}
return ret;
}
/*
静态内部类:用于实现不同的哈希函数
*/
private static class SimpleHash {
private final int cap;
private final int seed;
public SimpleHash(int cap, int seed) {
this.cap = cap;
this.seed = seed;
}
/**
* 计算哈希值
*/
public int hash(Object key) {
int h;
return (key == null) ? 0 : Math.abs(seed * (cap - 1) & ((h = key.hashCode()) ^ (h >>> 16)));
}
}
}
测试:
public class Test {
public static void main(String[] args) {
MyBloomFilter bloom = new MyBloomFilter();
String str = "我是张三";
String str1 = "我是李四";
// 添加张三
bloom.add(str);
// 判断张三李四
boolean flag = bloom.contains(str);
boolean flag1 = bloom.contains(str1);
System.out.println(flag); // true
System.out.println(flag1); // false
}
}
5 真正的布隆过滤器
-
谷歌开源的Guava中自带的布隆过滤器
<dependency> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> <version>28.0-jre</version> </dependency>
-
Redis中的过滤器
具体地址:https://hub.docker.com/r/redislabs/rebloom/
参考:JavaGuide
标签:数组,int,布隆,哈希,简单,过滤器,public,函数 来源: https://blog.csdn.net/qq_36744540/article/details/118852802
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。