摘要

针对重复数据删除过程中具有相似属性的用户上传相同数据可能导致的内部数据泄露问题,提出了一种基于阈值自适应调整的重复数据删除方案。该方案采用属性划分的方式,对用户属性的类型进行划分,并对每个类型属性给出了具体的属性距离计算方法,通过对比上传用户属性的相似度,确定用户类别并据此对上传数据的计数方式进行自适应调整。始终确保集团用户的加入不会改变上传数据的当前流行度状态,保证了重复数据删除的安全性和数据的保密性。研究结果表明,基于阈值自适应的重复数据删除方案分类准确率较高,时间开销不大,具有良好的可扩展性和实用性。