摘要

目的使用生物信息学的方法筛选结直肠癌(CRC)发生发展中的关键基因。方法从基因表达数据库(GEO)中筛选并下载CRC组织及癌旁组织的3个基因芯片(GSE71187、GSE31905、GSE35279),使用GEO在线分析工具GEO2R筛选出基因芯片中的差异表达基因(DEGs),并使用Venn在线网站筛选共表达DEGs。将筛选出来的共表达DEGs在DAVID网站进行基因本体(GO)功能和KEGG通路富集分析,绘制蛋白—蛋白相互作用网络图(PPI)并分析PPI中的核心DEGs。在基因表达谱数据动态分析网页工具(GEPIA)中绘制核心DEGs影响患者总生存期的生存曲线,筛选出预后相关基因,并在GEPIA和GEO中对预后相关基因在CRC组织和癌旁组织中的表达进行验证,得到CRC发生发展中的关键基因。结果从3个基因芯片中筛选出DEGs 5 664个,其中上调DEGs 2 703个、下调DEGs 2 961个,通过Venn图筛选出共表达DEGs 390个。对共表达差异基因进行GO功能分析、KEGG通路富集分析、PPI绘制及核心网络分析后,再次筛选出核心DEGs 66个。对核心DEGs进行生存曲线分析及表达量验证后,筛选出核心DEGs 6个;其中上调DEGs 2个,包括分泌型磷蛋白1(SPP1)、血小板反应蛋白2(THBS2);下调DEGs 4个,包括氯化物通道附件1(CLCA1)、接触蛋白3(CNTN3)、胰高血糖素(GCG)、酶原颗粒蛋白16(ZG16)。结论使用生物信息学的方法筛选出SPP1、THBS2、CLCA1、CNTN3、GCG、ZG16可能是CRC发生发展过程中的关键基因。