一种云存储相似数据检测方法和系统

作者:田纹龙; 何婷婷; 叶旭明; 薛晓晔; 李瑞轩; 万亚平; 欧阳纯萍; 刘永彬; 刘征海; 刘洋
来源:2022-01-21, 中国, ZL202210070755.3.

摘要

本发明提供了一种云存储相似数据检测方法和系统,方法包括:模型训练阶段,预处理训练数据,得到训练数据块;采用MinHash算法提取全部训练数据块的特征向量,得到未嵌入语义的第一向量并训练机器学习模型,训练后得到第一向量与嵌入上下文语义后的向量间的权重矩阵和训练后的模型;利用训练后的模型,以预处理训练数据相同的处理方法处理预测数据,得到预测数据块;并采用MinHash算法提取全部预测数据块的特征向量,得到预测数据的未嵌入语义的向量;将预测数据的未嵌入语义的向量与权重矩阵做矩阵乘法,得到训练数据的嵌入语义后的向量;通过Annoy算法找到最相似的数据块。本方法能够减少计算开销,解决特征值提取不稳定的问题,并提高检测精准度。