摘要
[目的] 改进SCCL方法在文本深度聚类任务上的效果。 [方法]提出一种新的基于SCCL的文本深度聚类模型Improved SCCL。该模型基于预训练模型对输入文本进行数据增强和编码获取两组增强表征,在SCCL模型基础上增加两层非线性网络将增强表征降维到维度与聚类数量相同的类簇特征空间。从列空间的角度构造正负簇对进行对比学习,引导模型挖掘对聚类任务有用的特征,并减少假正样本产生的影响。 [结果] 在Agnews、Biomedical、StackOverflow等五种基准数据集中,该方法的聚类准确率分别达到88.89%、48.74%、78.17%、56.97%和86.42%,较SCCL方法提升了0.69%~2.67%。 [局限] 需要预先设定类簇特征空间维度(与聚类数目K值相同),然而在实际应用中往往很难明确原始数据的具体聚类数目,应当根据数据情况适当调整。 [结论]该方法能够有效提取类簇特征并解决SCCL存在的局限性问题,在SCCL方法基础上提升了文本深度聚类效果。
-
单位中国科学院文献情报中心; 中国科学院大学