基于聚类和关键词提取的软件缺陷分析方法

作者:高俊婷; 张丽萍*; 赵凤荣
来源:计算机工程与设计, 2021, 42(03): 830-839.
DOI:10.16208/j.issn1000-7024.2021.03.033

摘要

提出一种基于K-Means和主题模型的软件缺陷分析方法,对软件缺陷的类别和关键词进行研究。获取缺陷报告进行预处理,获取有效特征,利用向量空间模型进行文本表示,计算权重,根据最终特征向量进行聚类;提取每一类缺陷的主题和关键词,帮助修复人员快速找到对应的修复方式。关键词提取结果以单词形式呈现给修复人员。实验结果表明,所提方法在bugzilla、firefox和SeaMonkey这3款软件的缺陷报告共1500条缺陷信息上最终聚类平均准确率能达到81%。

全文