摘要
目的:利用生物信息学与机器学习算法筛选结直肠癌(CRC)发病机制中的PANoptosis关键基因,开发并验证与CRC相关的多基因预测模型。方法:基于基因表达综合数据库(GEO)中CRC基因芯片筛选CRC组织与正常组织差异表达基因(DEGs)。利用加权基因共表达网络分析(WGCNA)筛选疾病特征模块基因。采用最小绝对值收敛和选择算子(LASSO)算法、支持向量机-递归特征消除(SVM-RFE)和随机森林算法获得枢纽基因,并取PANoptosis相关基因的交集,获得PANoptosis关键基因,构建预测CRC的列线图模型。使用受试者工作特征(ROC)曲线确定PANoptosis关键基因及列线图模型的诊断价值。结果:共获得4个PANoptosis关键基因,即细胞周期蛋白依赖性激酶1(CDK1)、二肽酶1(DPEP1)、半胱氨酸天冬氨酸蛋白水解酶7(CASP7)和半胱氨酸天冬氨酸蛋白水解酶8(CASP8)。基于4个PANoptosis关键基因,在训练集构建nomogram图,其校准预测曲线与标准曲线贴合较好,且在预测CRC发生的临床效能上表现良好。在验证集也证实了上述结果。在训练集和验证集中均发现基于4个PANoptosis关键基因的预测模型能够准确地区分正常和肿瘤组织样本。结论:利用WGCNA和机器学习算法得到与PANoptosis相关的4个基因并构建列线图模型,可能成为诊断CRC的有价值工具。
-
单位六盘水市人民医院; 贵州医科大学