摘要
僵尸用户导致的数据造假现象严重影响了微博的健康发展。针对采用基于密度的DPC算法进行僵尸用户检测时存在泄露正常用户隐私信息,以及在密度分布不均匀的微博数据中检测结果不理想的问题,提出一种基于差分隐私技术和近邻优化的僵尸用户检测方法。该方法将满足差分隐私的Laplace噪声添加至检测过程中,以实现基于隐私保护的僵尸用户检测。并通过引入反向k近邻的概念重新定义样本密度,从而更准确地反映样本点的局部信息,提高在非均匀分布的数据中僵尸用户检测的准确率。实验结果表明,该方法在实现正常用户隐私保护的同时,僵尸用户检测的准确率提高约4百分点。
- 单位