K近邻空间密度分布的模糊聚类算法

作者:张利; 路颜萍; 侯晴; 张皓博
来源:辽宁大学学报(自然科学版), 2023, 50(04): 289-301.
DOI:10.16197/j.cnki.lnunse.2023.04.008

摘要

聚类是数据挖掘研究和应用中必不可少的工具,然而不完整数据对现有聚类算法提出了挑战.针对不完整数据聚类中插补方法带来的不确定性问题,本文提出一种K近邻空间密度分布的模糊聚类算法.首先,根据样本间相似度确定缺失数据的K最近邻样本集.在此基础上,由于缺失值具有不确定性,引入基于K最近邻样本集的数据分布信息,进一步将缺失数据填补为区间形式.其次,考虑聚类中离群点影响,引入数据空间密度分布,提出一种密度分布的区间型模糊C均值算法.最后,采用模糊C均值算法将填补的区间数据进行聚类.实验结果表明,在UCI数据集和人工数据集上,该算法能有效提高聚类准确性和鲁棒性.

全文