摘要

[目的 /意义]信息技术的快速发展使得用户评论、患者症状等短文本数据量迅速增长,如何从短文本中挖掘有价值的信息成为文本分类的研究热点。[方法 /过程]以国内某医院各科室患者的病情症状数据为语料集,针对短症状文本包含语义信息不足的问题,从各科室症状词的重要度与关联度出发,将症状文本中低于设定症状词数量的文本作为语义增强对象,采用Word2Vec与基于概率的TF-IDF算法抽取各科室的若干典型症状关键词,将其补充到语义增强对象中形成新语料集,最后利用机器学习算法对症状文本进行分类。[结果 /结论]基于文章语义增强方法构造的新语料集,相较于原始语料集,在支持向量机(Support Vector Machine,SVM)、多项式朴素贝叶斯(Multinomial Naive Bayes,MNB)以及随机森林(Random Forest,RF)上的分类效果均有较大幅度提升,准确率分别提高约10%、9%、10%。

全文