摘要
目的:利用临床数据,通过机器学习建立辅助筛选模型,以提高胃癌早期诊断水平。方法:以5 585例胃癌(ICD编码为C16*,A组)患者为研究对象,并从57 657例非胃部恶性肿瘤(ICD编码为C*,除C16*外)中随机选择6 000例(B组),从47 225例健康体检者中随机选择6 000例非恶性肿瘤(C组),作为对照。从临床数据中抽取人口学(性别、年龄)、实验室检测(血常规检测、血脂/肝功能、肿瘤相关标志物、Hp等)等信息。利用Pearson相关性分析,对各指标与诊断之间的相关性进行分析。采用独立样本t检验,检测各指标的组间差异性。选择性别、年龄、癌胚抗原(CEA)、粪隐血(FOB)等53项指标作为决策变量,采用决策树算法C5.0,建立胃癌辅助筛查模型。结果:年龄、CEA、CA153等指标与胃癌显著相关(P<0.05)。在A组-B组、B组-C组、A组-C组中,存在组间差异性的指标不相同。通过数据挖掘,得到了包含51条规则的胃癌筛查模型。模型中重要性位于前10的指标依次为CA199、CA153、CEA等。对于训练集、测试集,模型的准确率分别为89.58%、89.14%,曲线下面积为0.809。结论:通过临床数据分析,可以确定胃癌早期诊断的重要指标。利用数据挖掘方法,基于临床数据可以建立胃癌筛查辅助模型,对于胃癌筛查具有良好的辅助价值。
- 单位