摘要
本发明提供了一种基于元语义嵌入的云存储相似数据检测方法和系统,其中方法包括:对云存储数据域中的全部数据进行CDC分块;采用局部敏感Hash算法提取全部CDC块的特征向量;基于Mask算法对任一CDC块的上下文特征向量进行处理,将处理后的所有上下文特征向量输入神经网络模型进行训练,获得云存储数据域的元语义模型;提取上传至云存储数据域的新数据的语义特征向量;将新数据的语义特征向量输入被元语义模型初始化后的新神经网络模型进行相似性检测。本发明基于元语义嵌入的方法嵌入了全文的语义,增强了提取数据特征的可靠性,同时避免重复训练神经网络,从而减少计算开销。
- 单位