摘要

K-means型算法在处理类不平衡数据时趋向于形成大小相同的簇,是"均匀效应"。针对这一问题诸多研究者提出了不同的聚类算法,这些方法针对簇样本数量不平衡特性,存在精度和效率问题。本文以卡方距离为基础提出了一种类平衡数据的聚类算法,利用均值消除受簇均值水平影响的特性度量样本相似性,解决类不平衡数据中"均匀效应"问题,给出了聚类目标函数,形成一种EM型聚类优化算法。在UCI实际数据集上进行了实验,结果表明本文所提出的算法提高了类不平衡数据的聚类精度,降低了"均匀效应"对聚类结果的影响。