一种新的基于Bloom filter数据结构的数据消冗算法

作者:邓剑勋; 熊忠阳; 邓欣
来源:南昌大学学报(理科版), 2017, 41(05): 455-459+463.
DOI:10.13764/j.cnki.ncdl.2017.05.010

摘要

针对以往数据消冗算法存储消耗高,时间消耗久以及重复率检测效果不是十分理想,引入Bloom filter数据结构将大数据进行降维处理,提出了一种新的数据消冗算法,该算法首先利用完全文件检测算法对数据进行检验匹配,通过的数据块再利用CDC分块检测算法进行进一步检测匹配,依据余弦相似度公式以及Hamming距离值计算数据相似度,最终完成数据消冗。仿真实验结果表明本文提出的数据消冗算法综合性能良好,既确保了检测数据重复率的准确性又提高了数据检测速度,同时降低了存储开销。

全文