摘要

隐私保护是数据共享的主要关注点之一,特别是当涉及个人敏感信息时。k匿名是传统的微数据隐私保护模型,存在同质泄露问题。t-closeness是k匿名的扩展方法之一,它限制了属性披露的风险,并提供了严格的隐私保证,现有的t-closeness工作主要针对单敏感属性,并没有考虑到多敏感属性。本文提出一种基于聚类的多敏感属性t-closeness算法,首先用k-means++算法依据敏感属性将数据集划分成k个分组,然后分别从每个簇中抽取一个样本以生成满足t-closeness的等价类。为提高隐私保护程度,扫描所有等价类,将不满足t-closeness的等价类合并到质心与其最近的等价类中。实验表明,我们的方法具有良好效果。