不确定数据信任密度峰值聚类算法

作者:汪康*; 马宗方; 田鸿朋; 宋琳
来源:信息与控制, 2022, 51(03): 349-360.
DOI:10.13976/j.cnki.xk.2022.1203

摘要

密度峰值聚类算法具有简单高效、无需迭代计算和提前设定类簇数的优势,但是在划分非类中心样本时容易产生“多米诺骨牌”效应,并且不能准确划分重叠区域的样本和噪声。为了解决以上问题,提出了不确定数据信任密度峰值聚类算法。首先,该算法在密度峰值聚类算法获取类中心样本的基础上,利用非类中心样本的K近邻求出样本属于不同类的信任值,将样本划分到信任值最大的类别,得到基于K近邻的初步聚类结果。然后,计算关于密度的上分位数得到密度阈值,在证据推理框架下进行信任划分,将密度小于该阈值的孤立样本划分到噪声类;处于重叠部分的样本划分到相关单类组成的复合类;信任值强烈支持属于某个类别的样本划分到相应的单类。该算法通过引入复合类和噪声类能够更加准确地展现样本在现有属性信息下的不确定性。实验结果表明,该算法在人工数据集和UCI数据集上相比于其他对比算法,能够取得更好的聚类性能。