基于机器学习算法的脑出血相关肺炎预测模型研究

作者:王孟; 覃露; 王春娟; 李姣; 王伊龙; 赵性泉; 王拥军; 李子孝*
来源:中国卒中杂志, 2020, 15(03): 243-249.
DOI:10.3969/j.issn.1673-5765.2020.03.004

摘要

目的建立基于机器学习的脑出血相关肺炎预测模型。方法选择中国国家卒中登记Ⅱ(China National Stoke RegistryⅡ,CNSRⅡ)数据库中发病7 d内的急性脑出血住院患者为研究对象,登记时间为2012年5月-2013年1月,研究覆盖我国219家医院。研究对象按照8∶2比例随机分为训练集和测试集。采用多因素Logistic回归分析,筛选出候选预测因子。应用基于机器学习的Logistic回归、CatBoost、XGBoost和LightGBM算法构建诊断预测模型,比较4种方法构建的模型对脑出血相关肺炎的预测诊断价值。结果本研究共筛选2303例患者,平均年龄62.1±12.7岁,其中男性占62.1%。患者随机分为训练集(n=1841)和测试集(n=462),两组脑出血相关肺炎发生率分别为15.6%和15.8%(χ2=0.007,P=0.934)。根据多因素Logistic回归分析,候选预测因子为年龄(OR 1.03,95%CI 1.02~1.04)、NIHSS评分(OR 1.02,95%CI 1.00~1.04)、白细胞计数(OR 1.11,95%CI 1.07~1.16)和吞咽功能障碍(OR6.85,95%CI 5.01~9.39)。Logistic回归、CatBoost、XGBoost和LightGBM四种模型灵敏度分别为75.34%、50.68%、80.82%和80.82%;特异度分别为68.64%、86.12%、52.96%和57.33%;ROC曲线下面积分别为0.776、0.692、0.736和0.767。Logistic回归和LightGBM模型诊断效果显著高于CatBoost和XGBoost模型(DeLong test,P<0.05)。结论基于机器学习建立的脑出血相关肺炎风险预测模型有较高的诊断价值,年龄、NIHSS评分、白细胞计数和吞咽功能障碍为模型的候选预测因子,可将模型纳入脑出血相关肺炎诊断决策。本研究结果的临床应用价值有待于更大样本的外部队列进行验证。

全文