摘要
基于聚类的k-匿名机制是共享数据脱敏的主要方法,它能有效防范针对隐私信息的背景攻击和链接攻击。然而,现有方案都是通过寻找最优k-等价集来平衡隐私性与可用性. 从全局看,k-等价集并不一定是满足k-匿名的最优等价集,隐私机制的可用性最优化问题仍然未得到解决. 针对上述问题,提出一种基于最优聚类的k-匿名隐私保护机制. 通过建立数据距离与信息损失间的函数关系,将k-匿名机制的最优化问题转化为数据集的最优聚类问题;然后利用贪婪算法和二分机制,寻找满足k-匿名约束条件的最优聚类,从而实现k-匿名模型的可用性最优化. 给出了问题求解的理论证明和实验分析;实验结果表明能最大程度上减少聚类匿名的信息损失,并且在运行时间方面是可行有效的.
- 单位