摘要

针对电力营销数据去重管理中重复数据检测准确率和去重率低的问题,本文提出了一种基于信息系统的去重管理方法。将电力营销时间序列划分为若干子空间,分别计算每个子空间频率分布密度和熵值,利用信息熵确定各个子空间的聚类中心。对经过降维处理的电力营销数据进行聚类分析,以获取相应的包装器,进而识别出有效的电力营销数据,并运用相似度函数来判断数据是否存在重复,从而实现对电力营销数据的去重管理。根据电力营销信息和用户行为数据建立数学模型,结合电力营销信息与客户行为数据计算得到电力营销信息与用户行为之间关系矩阵,将该关系矩阵应用于电力营销数据的去重过程中。据实验结果所示,本文所采用的方法在重复数据检测方面表现出极高的准确性和去重率,这表明该方法在去重方面具有显著的效果。

  • 单位
    国电南瑞科技股份有限公司