摘要

【目的】针对短文本分类中的内容稀疏问题,提出一种基于类别特征扩展的短文本分类方法。【方法】使用改进后的TF-IDF模型以及LDA主题模型构建基于类别特征的关键词集与主题分布集,完成对短文本内容及词汇向量表征上的扩充,并在此基础上通过卷积神经网络对短文本分类。【结果】实验结果表明,基于类别特征扩展后的短文本在分类的准确率上提升3%,在召回率上提升4.1%。【局限】仅使用卷积神经网络进行验证。【结论】基于类别特征扩展的短文本分类方法能够克服短文本分类中的内容稀疏问题,提高短文本分类的性能。