摘要

目的通过对TCGA数据库中乳腺癌高通量测序数据进行分析,寻找新的乳腺癌预后相关的基因,为后续研究提供数据支持。方法收集TCGA数据库中1066例乳腺癌组织和102例正常组织的基因转录本数据;利用R语言进行数据整理与合并后统一标准化分析;利用edgeR和DESeq软件包进行基因表达差异分析。利用Funrich软件GO功能分析及KEGG通路富集分析。利用String数据库和Cytoscape数据库分析出乳腺癌预后Hub基因。利用Kaplan-Meier Plotter数据库对所选的关键(Hub)基因做生存分析,从中选出决定预后的基因,最后利用Oncomine数据库对筛选出的基因进行乳腺癌表达的meta分析。结果 R软件中的edgeR和DEseq分析后得到739个交集基因。GO功能富集发现这些基因的功能主要集中细胞膜、细胞外基质、细胞骨架蛋白结合、细胞增殖等方面。KEGG通路分析显示这些基因主要富集在细胞周期素、肌肉连接、激素敏感脂肪酶介导的三酰甘油水解、上皮间充质化等信号通路上。String数据库构建蛋白互作网络,Cytoscape软件分析相关性排名前10位的基因。Kaplan-Meier Plotter数据库进行生存分析,Oncomine数据库检索出相关基因进行表达程度的测定,结果显示CCNB2、AURKB、BUB1、ESPL1及KIF18A的表达水平与乳腺癌的预后呈负相关(P<0.05),ESPL1、AURKB、CCNB2在乳腺癌组织中呈高表达状态(P<0.05)。结论 ESPL1、AURKB、CCNB2基因可能成为乳腺癌预后判断的指标,为后续的临床和基础实验提供数据支持。