摘要

目的基于美国癌症肿瘤基因图谱(TCGA)数据库分析结直肠癌组织及正常组织的差异表达基因,并探讨其相关分子机制。方法从TCGA数据库下载所有结直肠癌中mRNA转录组数据。共包含样本740例,其中,结直肠癌组织为571例,正常组织为169例。在R语言环境下,采用edge R工具包处理数据,得到差异表达基因。利用DAVID数据库对差异表达的前1 000个基因进行GO分析及KEGG通路富集分析。对显著差异表达的前200个差异表达基因进行分析,基于Cysctoscape绘制蛋白互作网络图。比较关键基因在癌组织及正常组织中的表达水平。以关键基因的中位表达水平为界值,将关键基因分为高表达组与低表达组,比较高表达组与低表达组的生存情况。结果共筛选出5 073个差异表达基因,其中,上调基因2 136个,下调基因2 937个。GO分析结果显示,其生物过程主要在细胞增殖、转运、rRNA加工、受体介导的内吞作用等功能富集。KEGG富集分析结果表明,差异表达基因的信号通路主要有细胞周期、转录失调、胆汁分泌、甲状腺激素信号通路、血小板活化等信号通路。筛选出的前7位关键基因为PLK1、BRD4、EHMT2、HIST2H4B、PRPF19、SUV39H1、TRIM28。进一步分析显示,癌组织中PLK1、PRPF19、SUV39H1表达均高于正常组织(P <0.05)。从生存分析曲线可知,PLK1和SUV39H1高表达组总生存时间与低表达组比较,差异无统计学意义(P>0.05);HIST2H4B低表达组总生存时间高于HIST2H4B高表达组(P <0.05)。结论基于TCGA数据库分析出PLK1在结直肠癌组织中高表达,其参与细胞增殖、有丝分裂细胞周期的G2/M转换等生物过程,通过P53信号通路发挥作用,在结直肠癌的发生、发展中起重要作用,有望成为诊断结直肠癌的肿瘤标志物。