摘要

[目的] 本文探究抑郁严重度预测模型的构建及模型解释问题,以期发展基于互联网用户生成内容的抑郁症风险预测研究,提升抑郁症自动检测模型的可信度与实用性。[方法] 采集“好大夫在线”平台上抑郁症的医疗咨询文本记录创建语料集,借助心理学词典从中提取患者心理特征,运用梯度提升树算法LigtGBM构建模型预测患者病况,同时引入可解释机器学习方法SHAP,解读模型,借助SHAP独特的可视化图表刨析患者年龄、性别、认知、情感、感知, 社会家庭及个人得失与抑郁症发生之间的关系。[结果]抑郁症患者心理状态能反馈患者病况,利用从患者问诊记录中提取的心理特征检测重度抑郁有效,准确率达到86%。可解释机器学习模型SHAP解释了模型的预测结果,揭示出患者各层面心理特征对抑郁症发生产生的多重效应。[局限] 语料所限,本研究仅能利用单次问诊记录对抑郁程度做预测。而模型特征基于心理学词典,更多与抑郁症发生风险有关的要素可纳入建模考虑中。[结论] 抑郁症自动诊断是一个富有挑战的机器学习任务,医疗应用场景下,对疾病自动诊断模型进行必要解释是算法“脱虚向实”的关键。