摘要

数据聚类在数据挖掘、数据分析中广泛应用,而不完整数据对数据聚类造成了很大困扰。针对不完整数据聚类中估值法填补缺失属性不准确的问题,提出动态区间的加权模糊聚类算法。首先,由属性相关度构造缺失属性的最近邻样本集,进而形成缺失属性估值区间。为进一步减小区间填补误差,使用基于最近邻样本集的离散度的区间因子来动态调节区间大小。其次,为充分挖掘属性空间的隐含信息,同时降低离群点对聚类中心的影响,对完整的区间型数据集进行基于局部密度的样本加权。最后,通过以上改进完成区间型样本的加权模糊聚类。利用多个UCI数据集和人工数据集验证提出的聚类算法,实验结果表明:动态区间的加权模糊聚类算法能有效提高聚类准确性、鲁棒性以及收敛的稳定性。