摘要
针对目前基于社交媒体数据的抑郁症检测模型难以适应不平衡数据和评估指标不全面的问题,提出一种基于文档自适应增强Bagging-τSS3(Document Adaptive Enhanced Bagging-τSS3,DAEB-τSS3)模型的社交媒体文本数据抑郁检测方法和一种新的机器学习评价指标GF(α,β)-Score。在τ-SS3模型基础上引入置信度加权处理,增强少数类数据影响;同时,采用文档自适应增强Bagging方法进行集成学习,改进Bagging的随机采样为分层采样并对少数类数据文档进行自适应增强以提升模型适应不平衡数据的能力;最后在模型评价阶段,使用GF-Score进行自动参数选择,丢弃表现不佳的基学习器,提升模型的可信度和稳定性。在E-Risk2017抑郁症检测数据集上的实验结果表明,DAEB-τSS3有更强的适应不平衡数据集的能力,相较于τSS3、双向长短时记忆网络和ERNIE 3.0等模型有显著性能提升,GF-Score、F1-Score和G-Mean Score平均提升13%,0.7%和26.9%,可以更加有效地实现基于不平衡社交媒体文本的抑郁症检测。
- 单位