基于混合字词特征的中文短文本分类算法

刘硕; 王庚润<sup>*</sup>; 彭建华; 李柯

摘要

随着信息技术的迅速发展，网络中产生了海量的中文短文本数据。利用中文短文本分类技术，在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点。相比中文长文本，中文短文本具有字数少、歧义多以及信息不规范等特点，导致其文本特征难以提取与表达。为此，文中提出了一种基于混合字词特征深度神经网络模型的中文短文本分类算法。首先，该算法同时计算出中文短文本的字向量和词向量，并分别对其进行特征提取；然后将提取到的字向量特征和词向量特征进行融合；最后通过全连接层和softmax层完成分类任务。在公开的THUCNews新闻数据集上的测试结果表明，该算法在精确率、召回率和F1值3种评价指标上均优于主流的TextCNN,BiGRU,Bert以及ERNIE＿BiGRU等对比模型，具有较好的短文本分类效果。

单位
中国人民解放军战略支援部队信息工程大学

收藏分享被引(10) 浏览

更新时间：2024-03-20 09:55

基于混合字词特征的中文短文本分类算法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友