摘要

【目的】解决短文本内容简短而引起的数据稀疏问题,提高短文本分类效果。【方法】针对短文本数据稀疏的特点,采用多通道文本建模方式,形成融合短文本语义、语序特征和主题特征的文本向量表示作为分类器的输入,采用集成SVM与随机森林的nLD-SVM-RF方法实现短文本分类。【结果】使用投诉短文本进行验证,相较于仅使用Doc2Vec作为特征的SVM单分类器和RF单分类器,当n=5时,nLD-SVM-RF方法准确率分别提高9.70%、6.25%。【局限】本文数据为电信投诉文本,数据量较小,没有在大样本数据集上进行验证。【结论】nLD-SVM-RF算法有助于企业分析短文本信息,辅助决策。