摘要

目的挖掘电子病历(EMRs)信息并构建机器学习(ML)模型,评估模型对新型冠状病毒肺炎(COVID-19)的诊断价值。资料与方法采用数据平台获取450例肺炎患者的EMRs,包括COVID-19组90例和非COVID-19组360例,并按照7∶3的比例将数据随机分为训练集315例和验证集135例。采集所有EMRs的临床表现、实验室检查和胸部CT报告等指标,采用单因素分析和多因素Logistic回归分析行指标筛选,构建逻辑回归(LR)、K最近邻(KNN)、决策树(DT)、多层感知机(MLP)、随机森林(RF)、支持向量机(SVM)和可解释增强机(EBM)共7种COVID-19诊断模型,并在验证集中评价其诊断效能。结果从EMRs中提取指标共69个,筛选出9个有统计学意义的指标构建ML模型,包括咳嗽、胸痛、肌酐、C反应蛋白、白细胞计数、乳酸脱氢酶、肌酸激酶、磨玻璃影和实变。验证集中各模型的诊断性能为,(1)LR:精确率0.815,召回率0.815,F1值0.815,ROC曲线下面积(AUC)0.946;(2)KNN:精确率0.792,召回率0.704,F1值0.745,AUC 0.931;(3)DT:精确率0.769,召回率0.741,F1值0.755,AUC 0.843;(4)MLP:精确率0.852,召回率0.852,F1值0.852,AUC 0.925;(5)RF:精确率0.800,召回率0.889,F1值0.842,AUC 0.955;(6)SVM:精确率0.742,召回率0.852,F1值0.775,AUC 0.906;(7)EBM:精确率0.828,召回率0.889,F1值0.857,AUC 0.970,其中EBM的COVID-19诊断效能最佳。结论挖掘EMRs信息,构建基于ML并具有可解释性的鉴别诊断模型,能够协助医师快速、准确地诊断COVID-19。