摘要

目的 通过整合分析外周血转录组数据探究重性抑郁障碍(major depressive disorder,MDD)关键基因并创建诊断模型。方法 检索基因表达汇编(Gene Expression Omnibus,GEO)公共数据库得到5个MDD外周血相关数据集。使用R limma包及稳健排序聚合(robust rank aggregation,RRA)算法筛选出差异表达基因。以包含最大样本量的GSE98793为训练集,使用Boruta算法进行关键基因筛选,使用logistic回归分析关键基因表达水平与抑郁症的关系。使用Bootstrap法进行内部验证,将剩余4个数据集作为外部验证集,使用受试者工作特征(receiver operating characteristic, ROC)曲线评估诊断模型的诊断性能。结果 分析共得到31个差异表达基因,其中上调基因20个,下调基因11个,从中筛选出7个基因为关键基因,分别为MMP8、TDRD9、FAM3B、LCN2、ARG1、NPTN和FANCF。将7个基因纳入多因素logistic回归分析构建诊断模型,绘制ROC曲线,曲线下面积(area under curve,AUC)为0.803(95%CI:0.740~0.867),说明该模型在训练集具有较好的预测能力。Bootstrap重抽样法内部验证结果显示AUC为0.804 (95%CI:0.757~0.851),模型的校准曲线显示一致性良好。同时,在4个外部验证数据集中,该模型也表现出较好的诊断性能,AUC值分别为0.781(GSE76826)、0.901(GSE38206)、0.722(GSE39653)、0.725(GSE52790)。结论 本文通过对现有MDD外周血转录组数据进行整合分析,筛选出7个MDD关键基因并构建出具有较好诊断能力的诊断模型,为基于生物标志物的MDD诊断提供了依据。