摘要

目的 运用生物信息学与机器学习的方法筛选与肺鳞癌的恶性进展和预后相关的潜在生物标志物,为肺鳞癌分子机制研究提供基础。方法 在基因表达综合数据库(GEO)和癌症和肿瘤基因图谱(TCGA)数据库下载肺鳞癌和癌旁的测序数据集和临床特征数据(RNA测序数据对应于542名肺鳞癌患者的493份肿瘤样本和49份正常组织样本),利用R分析差异表达基因,使用蛋白互作网络分析数据库(STRING)进行蛋白质-蛋白质相互作用(PPI)网络分析和加权基因共表达网络分析(WGCNA),筛出关键基因,随后结合套索回归算法(LASSO-cox)构建肺鳞癌预后模型,进行生存分析筛选与肺鳞癌生存期相关的中心基因。结果 TCGA数据集中包括49个正常样本和493个肺鳞癌样本,筛出2 966个上调基因和2 760个下调基因;GEO数据库GSE87410和GSE158420数据集,发现927个明显上调的差异基因和734个明显下调的差异基因;交集部分包括516个基因。通过WGCNA共获得2个中心模块(P<0.05):第一个模块中57个基因在数据集中均上调;第二个模块中FETUB和HRG基因下调,其余均上调。基因本体论(GO)富集分析显示,模块中的基因主要与纺锤体组织、有丝分裂、核分裂、姐妹染色体分离等相关功能紧密相关(P均<0.05)。根据TCGA中542个肺鳞癌肿瘤样本的表达数据和临床信息,通过乘积极限法(Kaplan-Meier)生存分析,得出驱动蛋白家族成员15(KIF15)、纤维蛋白原γ链(FGG),载脂蛋白H(APOH)与预后相关(P均<0.05),相对于正常组织,KIF15、FGG、APOH在肿瘤组织中均上调。TCGA中的临床数据按照1∶1划分为训练集(n=271,P<0.05)和测试集(n=271,P<0.05),结合LASSO-cox算法构建出2基因即FGG(HR=1.076,95%CI:1.042~1.112,P<0.001)和FOSB(HR=1.117,95%CI:1.060~1.176,P<0.001)可用于预后风险分数模型,公式为Riskscore=FGG×0.053 738 869 625 900 6+FOSB×0.065 554 850 856 381 5,在训练数据集和测试数据集中,低风险组的预后显著好于高风险组,其中测试集1、3、5年生存的预后模型的曲线下面积分别为0.62、0.61和0.59(P<0.05)。结论 WGCNA综合LASSO-cox回归分析和基础实验验证发现FGG在肺鳞癌细胞中高表达,其高表达预示肺鳞癌患者预后不佳,FGG是肺鳞癌可能的预后生物分子标志物。