摘要
目的 C 5.0算法改进C 4.5算法以提高分类效率和准确性,越来越广泛地应用于处理分类问题。本研究拟根据患者问卷调查和血清学检查等资料,利用C 5.0决策树算法筛查早期胃癌风险,筛选对早期胃癌风险筛查影响较大的因素,进而辅助临床提高早期胃癌的诊断筛查。方法资料来自与广东药科大学附属第一医院的合作项目"基于云计算的早期胃癌筛查创新平台",对广东省6个市近30家医院消化内科就诊的618例胃病患者进行问卷调查,并收集其血清学检查和内镜检查及病理活组织检查资料。根据内镜检查和病理活组织检查结果将患者分为早期胃癌低危、中危及高危3类,用合成少数过采样技术(synthetic minority oversampling technique,SMOTE)方法处理样本分类不平衡问题,然后根据C 5.0算法建立早期胃癌风险筛查的决策树模型。结果产生1棵深度为11、共33个叶子节点的C 5.0决策树模型,对应有33条易于理解的分类规则,根据这些分类规则可快速评估患者的早期胃癌风险类型。建立的C 5.0决策树模型有较高的准确率,达73.28%,且增益图中曲线上凸明显,接近理想曲线,能较好地对早期胃癌风险进行分类预测。决策树模型计算各指标对早期胃癌风险预测的重要性,筛选出15个对早期胃癌风险筛查影响较大的因素,其中影响最大的因素是幽门螺旋杆菌(helicobacter pylori,Hp)抗体。结论基于患者问卷调查和血清学检查构建的C 5.0决策树模型对早期胃癌风险的预测效果较好,选出对早期胃癌风险筛查影响较大的因素,可辅助临床早期胃癌风险筛查。
-
单位广东药科大学; 公共卫生学院