摘要

针对深度嵌入聚类(DEC)算法在数据降维后的特征空间中采用欧氏距离度量嵌入点之间的距离,容易忽视各特征不同量纲以及不同重要性的问题,提出了基于加权马氏距离的改进DEC算法,并同时给出基于加权马氏距离的间隔统计量(GS)方法判断最佳聚类数。该算法使用信息熵加权的马氏距离作为距离度量,规范化了欧氏距离的计算,并利用信息熵加大了对聚类重要的特征的权重。实证表明,基于加权马氏距离的改进DEC算法准确率优于原DEC算法,在UCI的路透社新闻等文本数据集上的聚类效果有明显的提升。利用改进的GS方法判断的最佳聚类数也有很大的可行性。