摘要
目的 利用癌症基因组图谱(the cancer genome atlas, TCGA)中的结直肠癌27 K甲基化数据和临床随访数据,挖掘与结直肠癌不良预后相关的因素及建立结直肠癌诊断模型。方法 自2020年12月—2021年9月,在TCGA网站下载207例结直肠癌27 K甲基化测序数据和相关临床资料。用R语言edger软件包筛选出差异甲基化位点,然后使用SPSS软件对差异甲基化位点进行ROC分析、逐步回归分析,筛选出对结直肠癌诊断有意义的位点。应用支持向量机、神经网络等建立起基于数个DNA甲基化位点的数学模型,并在GEO数据库中获取独立数据集GSE131013来评估结直肠癌诊断模型的性能。同时利用Kaplan-Meier(KM)单因素分析法和Cox多因素分析法对临床数据指标和甲基化位点进行生存分析,筛选出与结直肠癌不良预后有关的因素。结果 筛选出6个于结直肠癌有诊断潜力的位点:cg00240432、cg06744574、cg08090772、cg13577076、cg17872757和cg24446548。基于6个DNA甲基化位点建立ANN模型、Logistic回归模型、SVM模型,3种模型10折交叉验证平均准确率分别为99.0%、98.0%、99.5%,漏诊率分别为1.0%、2.0%、0.5%。运用GEO数据库中的独立数据集验证模型,3种模型的准确率分别为92.9%、85.8%、91.2%。KM生存分析发现cg24446548高甲基化以及结直肠癌晚期(Ⅲ、Ⅳ期)与结直肠癌不良预后有关(P<0.05)。Cox多因素分析发现肿瘤分期对生存期有明显影响(P<0.05)。结论 筛选出的甲基化位点具有诊断结直肠癌的潜能。在基于甲基化位点的筛选建立的3种模型中,ANN和SVM模型分类和预测性能较好。结直肠癌患者的cg24446548位点高甲基化以及肿瘤晚期(Ⅲ、Ⅳ期)预示着不良预后。
-
单位基础医学院; 山东第一医科大学; 泰安市中心医院; 山东省千佛山医院