摘要
聚类是数据挖掘研究和应用中必不可少的工具,然而不完整数据对现有聚类算法提出了挑战.针对不完整数据聚类中插补方法带来的不确定性问题,本文提出一种K近邻空间密度分布的模糊聚类算法.首先,根据样本间相似度确定缺失数据的K最近邻样本集.在此基础上,由于缺失值具有不确定性,引入基于K最近邻样本集的数据分布信息,进一步将缺失数据填补为区间形式.其次,考虑聚类中离群点影响,引入数据空间密度分布,提出一种密度分布的区间型模糊C均值算法.最后,采用模糊C均值算法将填补的区间数据进行聚类.实验结果表明,在UCI数据集和人工数据集上,该算法能有效提高聚类准确性和鲁棒性.
-
单位辽宁大学; 中国刑事警察学院