针对低频词进行改进的中文短文本分类方法

罗孝波; 林佳瑜<sup>*</sup>; 梁祖红; 王漳

doi:10.19734/j.issn.1001-3695.2021.08.0385

摘要

中文短文本分类中存在大量低频词，利用好低频词中的信息能有效提高文本分类效果，针对基于词向量的文本分类研究中低频词不能被有效利用的问题，提出一种针对低频词进行数据增强的方法。首先，利用受限文本生成模型产生的数据来微调低频词的词向量，再利用一种词向量的构造算法将高频词的更新信息迁移到低频词中，使低频词获取更准确且符合训练集分布的词向量表示；其次，引入相似词和实体概念等先验知识来补充上下文信息；最后，利用改进的卡方统计去除明显的噪声词，以及设计词注意力层对每个词进行加权，减少无关噪声对分类的影响。在多个基础分类模型上进行实验，结果表明各基础模型经改进后都有明显提升，体现了提出方法的有效性，同时也说明了短文本分类任务中低频词能改善分类的效果。

单位
广东工业大学

全文

访问全文

收藏分享被引(3) 浏览

更新时间：2024-03-20 19:32

针对低频词进行改进的中文短文本分类方法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友