面向短文本分类的语义增强研究

张梦芸; 丁敬达<sup>*</sup>

doi:10.13266/j.issn.0252-3116.2023.09.001

摘要

[目的 /意义]信息技术的快速发展使得用户评论、患者症状等短文本数据量迅速增长，如何从短文本中挖掘有价值的信息成为文本分类的研究热点。[方法 /过程]以国内某医院各科室患者的病情症状数据为语料集，针对短症状文本包含语义信息不足的问题，从各科室症状词的重要度与关联度出发，将症状文本中低于设定症状词数量的文本作为语义增强对象，采用Word2Vec与基于概率的TF-IDF算法抽取各科室的若干典型症状关键词，将其补充到语义增强对象中形成新语料集，最后利用机器学习算法对症状文本进行分类。[结果 /结论]基于文章语义增强方法构造的新语料集，相较于原始语料集，在支持向量机（Support Vector Machine,SVM）、多项式朴素贝叶斯（Multinomial Naive Bayes,MNB）以及随机森林（Random Forest,RF）上的分类效果均有较大幅度提升，准确率分别提高约10%、9%、10%。

单位
上海大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 07:54

面向短文本分类的语义增强研究

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友