摘要
目的 基于TCGA (the cancer genome atlas)和GEO(gene expression omnibus)数据库构建肝内胆管癌(intrahepatic cholangiocarcinoma, ICCA)预后风险模型,筛选ICCA预后相关基因。方法 TCGA数据库31例ICCA组织及9例癌旁组织数据作为训练集,GEO数据库30例ICCA组织及27例癌旁组织数据作为验证集,R软件“DESeq2”包过滤表达有差异的基因,过滤条件:差异倍数绝对值> 2,校正P值<0.05。单因素COX回归分析筛选两组数据预后差异均有统计学意义的基因,通过LASSO回归分析构建ICCA的预后风险模型。计算训练集及验证集风险分数,并根据中值分为高、低风险组,绘制Kaplan-Meier生存曲线图和时间依赖性受试者工作特征(receiver operating characteristic,ROC)曲线。将风险分数与临床病理信息进行单、多因素COX回归分析,并绘制列线图展示,综合评价及验证模型效能。利用基因本体论(gene ontology, GO)、京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)、基因集富集分析(Gene Set Enrichment Analysis, GSEA)和单样本基因集富集分析(Single Sample Gene Set Enrichment Analysis, ssGSEA)分析造成高低风险组预后差异的原因。结果 TCGA数据共筛选出2 922个差异表达基因,GEO数据共筛选出3 075个(均P<0.05)。经单因素COX回归分析,TCGA筛选出68个基因(HR=0.13~7.2,均P<0.05),GEO筛选出413个基因(HR=0.17~215.1,均P <0.05),两组数据预后差异均有统计学意义的有9个基因:GOLGA7B,MTFR2,TPM2,PIWIL4,EPHX4,PRICKLE1,DIO2,FUT4和COL4A3(其中TCGA数据库HR=0.506~2.760, GEO数据库HR=0.428~1.992,均P<0.05)。LASSO回归成功构建6基因预后风险模型,模型风险分数=0.464×表达量MTFR2+0.550×表达量TPM2-0.511×表达量PIWIL4-0.097×表达量PRICKLE1+0.215×表达量DIO2-0.313×表达量COL4A3,训练集中风险分数中值为1.43。Kaplan-Meier生存分析表明在总生存率上,高风险组低于低风险组(P<0.001)。ROC曲线提示,1,3,5年AUC分别为0.971(cutoff=0.22),0.921(cutoff=2.33)和0.701(cutoff=1.52),模型预测能力良好。单因素COX回归风险分数HR=5.18(95%CI:2.15~12.49), P<0.001,多因素COX回归风险分数HR=72.5(95%CI:4.52~1 162.9), P=0.002。验证集中模型风险分数中值为2.48。Kaplan-Meier生存分析表明,高风险组生存率低于低风险组(P=0.004)。ROC结果显示1,3,5年AUC分别为0.908(cutoff=3.23),0.851(cutoff=1.02)和0.752(cutoff=2.70),单因素COX回归风险分数HR=2.76(95%CI:1.65~4.60), P<0.001,多因素COX回归风险分数HR=4.68(95%CI:2.13~10.3),P<0.001,风险模型效能得到验证。GO,KEGG,GSEA和ssGSEA分析结果表明造成高低风险组预后差异的原因可能与机体免疫反应的抑制有关(均P<0.05)。结论 此次构建的预后风险模型在评估ICCA患者预后上具有一定的价值,为临床诊疗提供参考。
- 单位