摘要

使用主题模型进行文档聚类是众多文本挖掘任务中一种常见的做法。许多研究针对软件问答网站的数据,利用主题模型进行聚类来以此分析不同领域在社区的发展情况。然而,由于这些软件相关数据往往包含代码片段,以及文本长度分布不均等特点,使用传统单一的主题模型针对文本数据建模,易得到不稳定的聚类结果。文中提出一种结合代码片段和混合主题模型的聚类方法,并使用Stack Overflow作为数据源,构造了在该平台上被提问数量排名前60的Python第三方库数据集,经过建模最终分为以下六个不同的领域:网络安全、数据分析、人工智能、文本处理、软件开发和系统终端。实验结果表明:在自动评估和人工评估的指标上,使用代码片段结合文本进行主题建模,在聚类结果划分的质量上表现良好,而联合多个模型进行实验,一定程度上提高了聚类结果的稳定性和准确性。