摘要

目的 探讨利用实验室全血细胞计数(complete blood count, CBC)数据和机器学习算法构建侵袭性乳腺癌预测模型,并评价其临床应用价值。方法 回顾性收集2014年1月至2022年6月来自北京市3家医院的15 979条患者数据,将其划分为训练集、验证集和测试集。应用递归特征消除法确定特征变量。使用支持向量机、随机森林、梯度提升树、逻辑回归和K最近邻5种机器学习算法构建模型。采用受试者工作特征曲线下面积(area under the receiver operating characteristic curve, AUC)、灵敏度、特异性和准确度4项指标及其95%置信区间(95%CI)评估模型性能。利用混淆矩阵图验证最佳模型的临床有效性。结果 纳入AGE、EO%、RBC、NEUT#、MCH、MPV、PDW、EO#、RDW-CV和LYMPH#10个特征变量构建模型,随机森林模型性能表现最佳,在测试集中,AUC为0.923(95%CI 0.890~0.955),灵敏度为91.4%(95%CI 0.876~0.901),特异性为83.8%(95%CI 0.832~0.837),准确度为84.2%(95%CI 0.835~0.840)。经临床有效性验证的最佳模型准确度、灵敏度和特异性分别达到85.40%、72.97%和90.00%。结论 利用CBC数据和机器学习算法构建的侵袭性乳腺癌预测模型具有高灵敏度和高特异性,作为一种便捷、高效的辅助工具,可以帮助医生早期识别具有侵袭性乳腺癌风险的患者。

  • 单位
    北京市隆福医院; 首都医科大学附属北京朝阳医院