联合TCGA和GEO数据库筛选乳腺癌易感基因

作者:王建; 邵荣金; 龚伟达; 吕旭; 李金平*
来源:基因组学与应用生物学, 2021, 40(02): 884-898.
DOI:10.13417/j.gab.040.000884

摘要

本研究是利用公共基因芯片数据库筛选乳腺癌的预后基因,预测和探索这些基因在乳腺癌进展中的可能机制和临床价值。首先,我们筛选了公共基因芯片数据库(gene expression omnibus, GEO) GSE22820和癌症基因组图谱(the cancer genome atlas, TCGA)乳腺癌数据库的重叠差异表达基因,联合R语言分析乳腺癌组织与癌旁正常组织差异表达的基因;其次,基于STRING数据库及Cytoscape软件构建蛋白质相互作用网络图,分析并识别了中枢基因和前3个模块;之后进行了更多的功能分析,包括基因本体(gene ontology, GO)和京都基因与基因组百科全书(kyoto encyclopedia of genes and genomes, KEGG)通路分析以及基因集富集分析(gene set enrichment analysis, GSEA),以研究这些基因的作用以及潜在的潜在机制;最后进行了Kaplan-Meier分析和Cox比例风险分析,以阐明这些基因的诊断和预后效果。相关数据分析表明15个基因的表达水平与生存预后相关,高表达基因患者的总生存时间短于低表达患者(P<0.05);Cox比例风险分析表明UBE2T、ER原CC6L和RAD51这3个基因是预后生存的独立因素(P<0.05);GSEA分析表明在UBE2T、ERCC6L和RAD51基因中细胞周期、基础转录因子和卵母细胞减数分裂明显富集。最终,我们得出结论,这3种基因标志物的高表达是乳腺癌预后不良因素,可作为预测乳腺癌患者转移和预后的有效生物标志物。

全文