摘要

针对机器学习的发展需要大量的兼顾数据安全性和可用性的真实数据集的问题,提出了一种基于随机森林的K-匿名隐私保护算法(RFK-匿名隐私保护算法)。首先,使用随机森林算法预测出每种属性值的敏感程度;然后,使用k-means聚类算法将属性值根据不同敏感程度进行聚类;其次,使用K-匿名算法根据属性值的敏感程度集群对数据进行不同程度的隐匿;最后,由用户自主地选择需要哪种隐匿程度的数据表。实验结果表明,与K-匿名算法相比,RFK-匿名隐私保护算法处理过的数据更适合应用于机器学习中进行分类预测,在阈值E为3时,准确率提高了5个百分点,在阈值E为4时,提高了16个百分点;与(p,α,k)-匿名算法相比,在阈值E为4时,准确率提高了4个百分点,在阈值E为5时,提高了19个百分点。所提算法在保护了数据的隐私安全的基础上提高了数据的可用性。