融合类别特征扩展与N-gram子词过滤的fastText短文本分类

作者:李志明; 孙艳; 何宜昊; 申利民*
来源:小型微型计算机系统, 2022, 43(08): 1596-1601.
DOI:10.20009/j.cnki.21-1106/TP.2021-0883

摘要

以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出基于词汇信息熵的N-gram子词过滤方法过滤N-gram子词中低类别区分贡献度子词,并构建更专注于高类别区分贡献度语义特征学习的EF-fastText短文本分类模型.实验结果表明基于TF-IDF的LDA类别特征提取方法,以及基于词汇信息熵的N-gram子词过滤方法对于EF-fastText短文本分类模型性能提升是有效性的.

全文