摘要
针对用户的中文评论文本在抑郁倾向上的准确分类问题,提出一种基于领域情感词典与字词特征融合的中文抑郁症文本分类方法.首先基于通用域词典和词语相似度计算,构建并扩展了中文抑郁症领域情感词典;其次,针对中文字词的不同特点,融合了中文的字级特征和词级特征,提高了字词的表征能力;最后将该方法应用于BERT模型,构建了处理中文抑郁症文本分类任务的BERT-W模型.实验结果显示,相比基于浅层神经网络的表示模型,BERT-W模型在CDSD数据集上的精确率、召回率和F1值各项评价指标的表现更好;相比基于字或全领域词的BERT-char模型和BERT-word模型,融合字级特征和情感词特征的BERT-W模型的表征能力更强,精确率达到了97.59%,F1值达到了96.11%,在对用户的中文评论文本抑郁倾向分类任务上具有更高效的处理能力,有助于后续对抑郁症患者复杂语料的分类研究.
-
单位太原工业学院; 太原师范学院