摘要
划分聚类方法由于结构清晰、时间效率高而得到广泛的应用。经过簇数选择,再选取合适的初值,完成初始化过程后才能进行聚类。但在缺乏先验知识的实际工业过程中难以合理地进行簇数和中心初值选取,使得聚类处理效果大打折扣。针对利用误差平方和方法获得的肘部点不明显的问题,提出考虑比例主偏差的误差平方和方法(PPD-SSE)。在误差平方和的基础上,引入主偏差项进行肘部点附近趋势加强,同时通过引入比例值避免趋势突变,从而更加准确地进行簇数选择。针对利用k-means++方法选取高维数据初始中心表现随机的问题,提出轮盘重构的k-means++方法(RWR-kmeans++)。通过利用与已选中心的距离平方,并结合概率下限的方法来重构概率轮盘,提升相异数据被选中的概率,降低初值选取的随机性,从而提升聚类效果并使之更加稳定。在UEA&UCR公开数据集上进行改进前后算法的实验对比和分析,结果证明提出的PPD-SSE方法能够有效提升肘部偏折角及簇数预测的准确性,提出的RWR-kmeans++方法能够有效提升初值选取的相异性并提升聚类效果。
-
单位中南大学; 自动化学院