摘要

针对基于稀疏文本的抑郁症预测模型特征提取能力不足的问题,提出一种基于分层多粒度自注意网络(HMG-SAN)的模型。首先,通过全局向量(GloVe)模型获取词向量,解决词语和语句的向量化表示的问题;然后通过双向门控循环单元(Bi-GRU)获取文本结构中的词序信息和文本特征,解决提取上下文依赖的特征信息的问题;再通过多粒度自注意力(MG-SA)机制识别不同特征,解决不同粒度短语信息捕捉的问题;最后使用softmax函数获取分类结果。HMG-SAN模型的亮点在于MG-SA机制的融入,对于捕获文本重要词汇提供了很大帮助。在遇险分析访谈语料库(DAIC)数据集上与基于分层注意力网络(HAN)的模型和分层自注意力网络(HSAN)的模型进行对比实验,实验结果表明,所提模型的准确率和召回率均有显著提升,其中,准确率分别提升了2.74%和1.35%,召回率分别提升了7.35%和4.29%。可见,HMG-SAN模型可以更加准确地捕获受访者的抑郁状态,并以此进行更加高效的抑郁症预测。

全文