摘要

密度聚类作为一类重要的聚类分析方法,具有无需预先指定类簇数,可识别任意形状聚类族等优点,但在计算密度的过程中,K近邻或邻域半径的选取对聚类效果具有较大的影响,且当数据集中存在类簇间距相差较大的情况时,密度聚类无法自适应类簇中数据对象密度变换,导致聚类效果与实际存在较大误差。针对现有密度聚类分析存在的不足,利用有效邻近点和适应密度分布,提出了一种密度聚类分析算法。该算法首先通过相对距离确定伸缩半径,定义了数据对象的有效邻近点,并有效地克服了近邻值K选取对聚类效果的影响;其次,计算核心点和边界点阈值,依据有效邻近点,并确定类簇中的核心区域数据对象,有效地改善了聚类分析效率;然后,调整簇内有效距离,改善了类簇密度分布不均匀、类簇间距离过大等问题;最后,在人工和UCI数据集上验证了该算法的有效性。