摘要

本发明公开了一种基于单哈希均分布隆过滤器的重复数据删除技术实现方法。所述方法首先使用一个分区范围内高要求的哈希函数,其次由k个哈希函数生成k个哈希映射,采用的k个哈希函数是计算量级极低的取模运算,然后再缩放映射到大小相同的分区;已经保存的数据通过计算生成一个单哈希均分布隆过滤器并保存;新数据通过生成新的单哈希均分布隆过滤器,如果映射块不重复则证明新数据不存在。本发明实现了一种基于单哈希均分布隆过滤器的重复数据删除技术实现方法,快速有效的过滤有可能重复的数据。