基于支持向量机的中文极短文本分类模型

作者:王杨; 许闪闪; 李昌; 艾世成; 张卫东; 甄磊; 孟丹
来源:计算机应用研究, 2020, 37(02): 347-350.
DOI:10.19734/j.issn.1001-3695.2018.06.0514

摘要

为了有效提取极短文本中的关键特征信息,提出了一种基于支持向量机的极短文本分类模型。首先对原数据进行数据清洗并利用jieba分词将清洗过的数据进行处理;再将处理后的数据存入数据库,通过TF-IDF进行文本特征的提取;同时,利用支持向量机对极短文本进行分类。经过1-0检验,验证了模型的有效性。实验以芜湖市社管平台中的9 906条极短文本数据作为样本进行算法检验与分析。结果表明在分类准确率方面,该方法相比于朴素贝叶斯、逻辑回归、决策树等传统方法得到有效提高;在误分度与精确度指标上匹配结果更加均衡。

全文