摘要

为了从基因层面探讨非小细胞肺癌(non-small cell lung cancer, NSCLC)发生发展的内在机制,筛选与NSCLC诊断、预后相关的基因,为NSCLC分子机制的进一步研究提供生物信息学依据,利用生物信息学方法对GEO数据库和TCGA数据库的数据集进行合并分析,筛选NSCLC组织与正常肺组织之间的差异表达基因(differentially expressed genes, DEGs),并对所取交集的DEGs进行基因集富集分析(gene set enrichment analysis, GSEA)、基因本体论(gene ontology, GO)分析、KEGG (kyoto encyclopedia of genes and genomes)通路富集分析、蛋白质相互作用(protein-protein interaction, PPI)分析、ROC曲线诊断效能分析及LASSO生存分析。文中共筛选出240个DEGs,主要涉及核分裂、染色体分离等生物学过程。GSEA分析结果显示,富集的通路主要涉及DNA修复和细胞周期。从PPI网络中筛选出20个hub基因, ROC结果显示, UBE2C (AUC=0.939)、TOP2A(AUC=0.927)、RRM2 (AUC=0.927)、CCNB1 (AUC=0.928)、MKI67 (AUC=0.930)、AURKA (AUC=0.931)、MELK(AUC=0.950)相对具有较高的诊断价值, LASSO COX回归结果则显示IL6、KIAA0101、MKI67、TPX2、AURKA、CDKN3及CDCA5与NSCLC患者的预后强相关。本研究结果表明, ZWINT、KIF2C、MELK、CDCA5可能在NSCLC中发挥着重要的作用,为阐明NSCLC的分子机制提供了新思路。