摘要
本发明提供了一种基于相似数据检测的云存储冗余数据预测方法和设备,其中方法包括:对云存储数据进行分块,得到数据块;遍历所有数据块,利用哈希算法计算出数据块对应的哈希指纹;利用N-transform方法计算数据块的相似特征组;根据待预测的数据集的大小,选定m个数据块;遍历提取的所有数据块组成的数据块集合,利用伯努利二项分布循环选取m个初始样本;遍历初始样本组成的初始样本集,基于哈希指纹和相似特征组进行判断,将其中不符合哈希指纹和相似特征组条件的重复数据块添加到基样本中,得到基样本集;遍历待预测的数据集,并基于基样本集确定重复数据和相似数据,从而计算数据冗余的估计值。本发明能够有效地提高云存储冗余数据的去重性能。
- 单位