摘要
针对目前增量压缩中相似性数据检测方法特征提取过程大多存在计算复杂性大、检测不够精确等问题.本文面向非重复但高度相似数据,提出一种基于增量压缩的数据块局部特征数据相似性快速检测方法 FSD.首先将数据块分解为若干个子数据块,然后提取每个子数据块的特征,接着构建投票表决的分组,进行组内表决形成超级特征,最后根据超级特征进行数据相似性检测.基于开源的增量压缩原型系统Destor,在六个数据集上进行的增量压缩试验表明,与经典的SF方法比较,FSD在数据相似度检测计算的速度和效率方面得到了有效的提升,系统整体吞吐量提高了50%-90%.
-
单位南京航空航天大学; 国网上海市电力公司