摘要
【目的】解决现有深度变分推断算法进行文本聚类时面临的语义缺失问题。【方法】基于现有的深度变分推断算法,设计一种补充语义信息的深度文本聚类模型(SSVAE),可以将文本语义信息补充到聚类过程中。【结果】实验结果表明,SSVAE在文本聚类过程中有效地补充了文本缺失的语义信息,与现有效果最好的深度变分推断模型以及主流的深度聚类模型相比,SSVAE的NMI指标在BBC,Reuters-1500,Abstract,Reuters-10k,20news-l这5个真实文本数据集上分别提升8.92、7.43、8.73、4.80和6.14个百分点。【局限】SSVAE在补充语义的过程中,除了补充了缺失的语义,有时也不可避免地引入一些噪声,这会造成聚类效果的微小偏差。【结论】补充语义信息的深度变分文本聚类模型SSVAE能够对文本进行更有效的聚类划分,提高聚类准确性。
- 单位