摘要
聚类在电网客户大数据分析中发挥着重要作用,随着我国《数据安全法》的颁布,如何在电力客户数据聚类中兼顾数据隐私和聚类质量,成为亟待解决的难点。针对已有的基于差分隐私的k-means聚类方法难以兼顾数据隐私与聚类质量问题,提出距离加噪扰动方法,通过提取数据距离并向距离数值添加满足差分约束的噪声,构建加噪矩阵,实现数据距离隐私保护;设计基于加噪矩阵的kq-means聚类方法,引入k最近邻概念,设计聚簇划分策略,将数据记录分配到距其最近的若干个中心点的期望区间,减小多轮迭代过程中差分噪声累积产生的聚类误差,从而支撑保护客户数据隐私的电网客户数据聚类。
- 单位