摘要
针对k-means算法在处理一些同时具备样本噪声与特征噪声的数据集时表现不佳的问题,提出一种自适应样本和特征加权的k-means聚类算法(ASFW)。所提算法引入负熵和一种正则化项,在每次迭代中自适应地调整样本和特征权重,并通过一种新的距离度量函数向最优解进行退火,可以有效避免得到较差的局部最小值,同时保持经典k-means算法的简单性。在人工合成数据集的聚类结果表明,相较于同类算法,ASFW的聚类效果更好,且对噪声样本和特征赋予的权值更正确合理,说明所提算法能够有效识别噪声,降低噪声对聚类结果的影响;在6个真实数据集下的聚类结果显示,ASFW在各个数据集的聚类性能均优于对比算法,且在大多数数据集上取得了最佳的标准互信息(NMI)和调整兰德系数(ARI),充分验证了ASFW具有良好的聚类性能。
- 单位