摘要

传统的文本聚类算法通过衡量文本间相似度对数据样本进行类簇划分,但无法根据用户给定的少量监督信息挖掘用户对聚类结果的主观意图。随着应用场景的多样化发展,同一数据集在不同的用户意图指导下聚类结果可能不唯一,如何得到遵循用户意图的聚类结果是当前研究的问题之一;同时,用户给定的监督信息是少量的,如何根据少量的监督信息最大程度地学习到用户的聚类意图,是研究的另一问题。为此,提出一种挖掘和补充用户意图的半监督深度文本聚类模型(SDDCS)。SDDCS根据用户给定的监督信息,构造意图矩阵挖掘用户意图;根据矩阵分解与补充算法对意图矩阵中的未知元素进行补充,进而最大程度地学习到用户意图。利用补充后的意图矩阵指导文本聚类过程,将用户意图作为聚类依据之一,最终得到符合用户意图的聚类结果。在四个公开文本数据集上的实验表明,SDDCS的聚类性能更高,其有效性得到了证明。