基于机器学习算法的大于胎龄儿风险预测模型

作者:白皙; 罗云云; 周智博; 苏明亮; 杨柳青; 陈适; 阳洪波; 朱惠娟; 潘慧*
来源:中华流行病学杂志, 2021, 42(12): 2143-2148.
DOI:10.3760/cma.j.cn112338-20210824-00677

摘要

目的开发和验证基于机器学习算法的孕期大于胎龄儿(LGA)风险预测模型, 并比较其与传统逻辑回归方法建模的性能差异。方法研究对象来自"中国免费孕前优生健康检查项目", 于2010-2012年在全国31个省市的220个县开展, 覆盖全部农村计划妊娠夫妇, 本研究选取分娩新生儿胎龄在24~42周内, 单胎活产的所有育龄期夫妇及其新生儿为研究对象。应用10种机器学习算法分别建立LGA预测模型, 评估模型对LGA的预测性能。结果最终纳入104 936名新生儿, 男婴54 856例(52.3%), 女婴50 080例(47.7%), LGA的发生率为11.7%(12 279例)。经过下采样数据平衡处理后, 机器学习方法建立模型的整体效能出现明显提高, 其中以CatBoost模型在预测LGA风险方面表现最佳, 模型的受试者工作特征曲线的曲线下面积(AUC)为0.932;逻辑回归模型表现最差, AUC仅为0.555。结论与传统的逻辑回归方法相比, 通过机器学习算法可建立更有效的孕期LGA风险预测模型, 具有潜在的应用价值。

  • 单位
    北京协和医院; 北京协和医学院; 中国医学科学院

全文