一种支持模糊匹配的云存储数据去重复方法

作者:张跃宇; 庞婷; 李晖; 陈杰; 王勇; 张云鹏
来源:2016-03-25, 中国, CN201610176892.X.

摘要

本发明公开了一种支持模糊匹配的云存储数据去重复方法。其步骤为:1、读取文件内容,2、计算文件元数据,3、判断是否满足分块条件,4、计算模糊哈希值,5、压缩模糊哈希值,6、计算索引相似度,7、比对模糊哈希值,8、判断是否存在重复的数据块哈希值,9、进行块级的文件所有权证明,10、发送不重复的数据块序号,10、上传不重复的数据块。本发明克服了现有技术中上传和存储完整文件、按比特串长度对文件进行等长划分,内容相似但首尾未对齐的文件无法被识别出重复数据带来的缺陷,降低了网络上传带宽和服务器存储空间的开销,提高了重复数据删除率。