摘要
数据挖掘中的聚类分析在给人们带来方便的同时,也凸显了隐私泄露等安全问题,于是隐私保护框架下的聚类分析算法应运而生.考虑到数据集中数据点的每个维度对于数据的重要性或者影响程度均不同,提出了基于距离贡献率的Wk-medoids算法、面向差分隐私的WDPk-medoids算法及面向误差隐私的WEPPk-medoids算法.与原有未加权算法相比,所提算法可降低整个数据点所添加的噪声量、减少加噪数据的失真程度、提高聚类结果的有效性;同时还应用聚类效用评价指标对这三种算法的性能进行了对比分析,为隐私保护框架下聚类挖掘算法如何权衡数据聚类有效性以及隐私保护安全性之间的相互关系提供了参照建议.
- 单位