BitMap

2022-06-11 12:00:23 阅读：202 来源： 互联网

BitMap的原理

感觉跟信息论里面对数据的状态压缩（即去除掉掉冗余的信息）的思路殊途同归。

BitMap 的基本原理就是用一个 bit 位来存放某种状态，适用于大规模数据，但数据状态又不是很多的情况。通常是用来判断某个数据存不存在的。

举个例子在Java里面一个int类型占4个字节，也就是4*8=32bit，大多数时候我们一个int类型仅仅表示一个整数，但其实如果映射成位存储的话，一个int类型是可以存储32个bit状态的。

也就是说使用1G的内存，换算成bit=1024 * 1024 * 1024 * 8约等于86亿个bit，注意换算的方式GB=>MB=>KB=>Byte=>Bit。如果存储int类型，能存储多少个？我们算下1024 * 1024 * 1024 / 4 约等于2亿6千万个int类型。

从上面的计算的结果来看，在面对海量数据的时候，如果能够采用bit存储，那么在存储空间方面可以大大节省。

在Java里面，其实已经有对应实现的数据结构类java.util.BitSet了，BitSet的底层使用的是long类型的数组来存储元素。

也就是说，假设我想排序或者查找的总数N=10000，那么，我申请的数组大小如下：

如果是int类型：int temp[]=new int[1+N/32]，也就是312+1=313

如果是long类型：long temp[]=new long[1+N/64]，也就是156+1=157

这里注意Java里面的整数除法是向下取整的，所以数组长度还需要加上1.

这里以int为例，生成的bitmap表如下：

a[0]--------->0-31 ->bit表示[0000000000000000000000000000000000000]
a[1]--------->32-63 ->bit表示[0000000000000000000000000000000000000]
a[2]--------->64-95 ->bit表示[0000000000000000000000000000000000000]

复制

其实申请一个int一维数组，那么可以当作为列为32位的二维数组。先通过对32进行相除，得到数组下标，然后将十进制转成二进制之后，进行移位计算，用来代表状态。

下面，我们来看一个排序场景，定义一个元素不重复的数组{2,3,14,7,0}。

BitSet map=new BitSet();

        System.out.println(map.size());

        int a[]={2,3,14,7,0};

        //赋值
        for(int num:a){
            map.set(num,true);
        }
        //排序

        for (int i = 0; i < map.size(); i++) {
            if(map.get(i)){
                System.out.print(i+" ");
            }
        }

复制

输出：

64
0 2 3 7 14

复制

第一行的64，是代表当前的bit数，因为是long类型，而数组里面的最大值没有超过63，所以其实只用一个long类型就能处理上面的排序。

看到这里，如果熟悉排序算法里面计数排序，那么我们就能发现原理非常类似，不同的是使用bitmap排序占用的存储空间更小，但缺点是不支持重复数字。

代码实现

public class BitMap {
    //数据结构
    private int[] nums;
    //最大值
    private int max;
    //容量
    private int count;
    //构造器初始化

    public BitMap(int maxValue){
        this.count=maxValue;
        this.max=maxValue/8+1;
        this.nums=new int[max];
    }



    //添加数据
    public void add(int num){
        //判断在哪一个桶
        int index=num/8;
        //判断具体的位的下表
        int padition=num%8;

        int tempBit=1<<padition;

        nums[index]= nums[index]|tempBit;

    }

    //判断数是否存在
    public boolean contains(int num){
        //判断在哪一个桶
        int index=num/8;
        //判断具体的位的下表
        int padition=num%8;

        int temp=1<<padition;

        return (nums[index]&temp)!=0;

    }
}

来看一下关于BitMap算法一些处理大数据问题的场景：

（1）给定40亿个不重复的 int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中。

解法：遍历40亿数字，映射到BitMap中，然后对于给出的数，直接判断指定的位上存在不存在即可。

（2）使用位图法判断整形数组是否存在重复

解法：遍历一遍，存在之后设置成1，每次放之前先判断是否存在，如果存在，就代表该元素重复。

（3）使用位图法进行元素不重复的整形数组排序

解法：遍历一遍，设置状态1，然后再次遍历，对状态等于1的进行输出，参考计数排序的原理。

（4）在2.5亿个整数中找出不重复的整数，注，内存不足以容纳这2.5亿个整数

解法1：采用2-Bitmap（每个数分配2bit，00表示不存在，01表示出现一次，10表示多次，11无意义）。

解法2：采用两个BitMap，即第一个Bitmap存储的是整数是否出现，接着，在之后的遍历先判断第一个BitMap里面是否出现过，如果出现就设置第二个BitMap对应的位置也为1，最后遍历BitMap，仅仅在一个BitMap中出现过的元素，就是不重复的整数。

解法3：分治+Hash取模，拆分成多个小文件，然后一个个文件读取，直到内存装的下，然后采用Hash+Count的方式判断即可。

该类问题的变形问题，如已知某个文件内包含一些电话号码，每个号码为8位数字，统计不同号码的个数。 8位最多99 999 999，大概需要99m个bit，大概10几m字节的内存即可。（可以理解为从0-99 999 999的数字，每个数字对应一个Bit位，所以只需要99M个Bit==12MBytes，这样，就用了小小的12M左右的内存表示了所有的8位数的电话）

BitMap的一些缺点：

（1）数据碰撞。比如将字符串映射到 BitMap 的时候会有碰撞的问题，那就可以考虑用 Bloom Filter 来解决，Bloom Filter 使用多个 Hash 函数来减少冲突的概率。

（2）数据稀疏。又比如要存入(10,8887983,93452134)这三个数据，我们需要建立一个 99999999 长度的 BitMap ，但是实际上只存了3个数据，这时候就有很大的空间浪费，碰到这种问题的话，可以通过引入 Roaring BitMap 来解决。

标签：1024,int,BitMap,数组,bit,排序
来源： https://www.cnblogs.com/LiPengFeiii/p/16365583.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

BitMap

BitMap的原理

代码实现

来看一下关于BitMap算法一些处理大数据问题的场景：

BitMap的一些缺点：