摘要
常规的数据去重方法多数采用Simhash算法设计而成,在细粒度云数据去重过程中,去重覆盖范围有限,存在去重质量较低、实时性较差的问题。基于此,在传统数据去重方法的基础上,开展了细粒度云数据自适应去重方法研究。首先,采用相似重复数据检测方法,对细粒度云数据作出全方位的检测,根据字符串相似度,判断数据集中是否存在相似重复数据。其次,压缩存在相似重复性质的细粒度云数据,提取云数据去重特征。在此基础上,利用重复数据分块去重技术,删除细粒度云数据中的相似重复数据。根据实验分析结果可知,按照提出方法对细粒度云数据进行去重后,空间压缩率均达到了98%以上,能够最大限度地去除细粒度云数据中的重复数据。
- 单位