摘要
BIRCH算法是一种适合处理大规模数值型的聚类算法,但现实生活中的数据往往是混合型数据,导致了BIRCH算法的局限性;此外,在使用BIRCH算法进行聚类分析的过程中存在隐私泄露的风险,而传统的中心化差分隐私算法存在需要可信第三方的缺点。针对以上缺陷,提出了基于本地差分隐私的BIRCH混合数据(LDP-BIRCH)算法,对混合型数据中的非数值型数据进行编码处理,并使用本地差分隐私对数据集进行扰动,将扰动后的数据集发给第三方进行BIRCH算法聚类分析。研究结果表明,LDP-BIRCH算法在adult和Facebook Live Sellers in Thailand数据集上满足隐私保护性和聚类可用性。
- 单位