摘要

针对已有差分隐私高维数据发布方法无法有效兼顾数据间复杂属性关联关系和计算成本的问题,提出了一种基于聚类分析技术的差分隐私高维数据发布方法 PrivBC。首先,基于K-means++设计属性聚类算法,引入最大信息系数量化属性间相关关系,并对具有高度相关关系的数据属性进行聚类;其次,对聚类产生的各个数据子集计算关系矩阵,缩减属性对候选空间,构建满足差分隐私的贝叶斯网络;最后,根据贝叶斯网络采样每个属性,合成新的隐私数据集进行发布。与PrivBayes方法相比,PrivBC算法误分类率和运行时间分别平均降低了12.6%和30.2%。实验结果表明,所提算法在有效保证数据可用性的基础上,可以显著提高计算效率,为高维大数据的隐私发布提供新思路。