摘要

文本分类是自然语言处理各项任务的关键技术。为解决词袋模型带来的特征维数高、数据稀疏以及文本分类精度低等问题,提出了一种基于卷积神经网络和XGBoost的文本分类模型CNNs-XGB。首先利用word2vec对预处理后的数据进行词向量表示,其次利用多尺寸卷积核卷积神经网络进行数据特征提取,最后利用XGBoost对深度提取的特征进行分类处理。在清华大学自然语言研究室提供的新闻数据上进行实验,证明了提出的CNNs-XGB分类模型用于文本分类得到的准确率、召回率、F1值优于将卷积神经网络与支持向量机(SVM)、最近邻分类(KNN)、贝叶斯分类(NB)、随机森林分类(RFC)组合的分类模型。