摘要
聚类是机器学习的核心任务之一,通常是在无标签条件下,依靠发掘数据潜在的结构进行聚类。近年来,数据的复杂度越来越高,数据隐空间中存在各种冗余复杂的空间结构,传统聚类算法难以从中分离出不同簇的数据。深度学习具有强大的特征表示和非线性逼近能力,在无监督聚类领域也显现出优越性,基于深度学习的聚类模型有效提高了各类复杂数据的聚类结果。该文提出了一种新的端到端深度聚类模型,在自编码器框架下,构建多个不同的聚类子空间,并利用高维样本在多个子空间的低维特征重构原始样本,同时增加一个对样本进行簇预测的网络,利用预测的概率向量对不同簇的解码样本进行加权融合,通过最小化融合样本与原始样本之间的重构误差并对子空间加以约束,最终实现对高维样本的聚类。模型同时兼顾聚类簇的子空间结构和不同簇之间的重构误差,在标准数据集上取得了较好的聚类效果。
-
单位中国人民解放军陆军工程大学; 南京信息工程大学