基于主题相似性聚类的自适应文本分类

作者:康雁; 杨其越*; 李浩; 梁文韬; 李晋源; 崔国荣; 王沛尧
来源:计算机工程, 2020, 46(03): 93-98.
DOI:10.19678/j.issn.1000-3428.0053717

摘要

传统的文本分类方法仅使用一种模型进行分类,容易忽略不同类别特征词出现交叉的情况,影响分类性能。为提高文本分类的准确率,提出基于主题相似性聚类的文本分类算法。通过CHI和WordCount相结合的方法提取类特征词,利用K-means算法进行聚类并提取簇特征词构成簇特征词库。在此基础上,通过Adaptive Strategy算法自适应地选择fasttext、TextCNN或RCNN模型进行分类,得到最终分类结果。在AG News数据集上的实验结果表明,该算法可较好地解决不同类别特征词交叉的问题,与单独使用的fasttext、TextCNN、RCNN模型相比,其文本分类性能显著提升。

全文