摘要
针对传统的基于密度的不确定性聚类算法存在参数敏感和对复杂流形不确定数据集得到聚类结果较差的缺陷,本文提出一种新的基于JS散度的不确定数据密度峰值聚类算法(UDPC-JS)。该算法首先用不确定自然邻居定义的不确定自然邻域密度因子去除噪声点;其次通过不确定自然邻居和JS散度相结合的方式计算不确定数据对象的局部密度,再通过结合代表点的思想找到不确定数据集的初始聚类中心,并在初始聚类中心之间定义基于JS散度和图的距离,再利用基于不确定自然邻居和JS散度计算出的局部密度和在初始聚类中心之间新定义的基于JS散度和图的距离在初始聚类中心上构建决策图,并根据决策图选择最终的聚类中心;最后,将未分配的不确定数据对象分配到其初始聚类中心所在的簇中。实验结果表明:该算法较对比算法具有更好的聚类效果和准确性并且在处理复杂流形的不确定数据集上的优势较大。
- 单位