基于多模型融合的开源情报文本分类方法

作者:郭文强; 张志政
来源:指挥信息系统与技术, 2022, 13(03): 44-51.
DOI:10.15908/j.cnki.cist.2022.03.008

摘要

为了提升开源情报文本分类性能,提出了一种基于多模型融合的中文新闻文本分类方法。利用结合TextRank提取关键句的方法完成文本预处理,利用词向量技术完成长文本的分布式表示;使用等长卷积进行文本局部特征抽取,引入短路连接的思想,将抽取结果送入结合自注意力的双向长短时记忆网络(SA-LSTM)生成文本的序列特征;另外,抽取结果经过最大池化层进行特征压缩后直接输出,将二者融合实现新闻长文本分类。使用自制的中文新闻文本数据集进行试验,试验结果表明,与TextCNN、RCNN和DPCNN等主流文本分类模型相比,该方法具有更高分类准确率,验证了该方法在新闻文本分类上的有效性。

全文