摘要
目的 通过生物信息学筛选非小细胞肺癌(NSCLC)血小板RNA关键基因,寻找潜在的癌症生物标志物及新的治疗靶点。方法 检索基因表达综合数据库获得来自NSCLC患者和健康对照的3个转录组数据集(GSE68086、GSE89843、GSE183634),对数据集GSE68086中的RNA进行差异表达分析,然后对差异表达基因(DEGs)进行基因本体论(GO)、京都基因与基因组百科全书(KEGG)功能富集分析。通过加权基因共表达网络分析划分与疾病相关的基因模块,选择相关性最强的模块基因与差异基因的交集基因,用最小绝对值收敛和选择算子(LASSO)和随机森林(RF)2种机器学习算法筛选关键基因,并在数据集GSE89843、GSE183635中进行验证。最后对关键基因进行基因集富集分析。结果 共鉴定出4 917个DEGs(596个上调基因和4 321个下调基因)。通过GO、KEGG富集分析发现:DEGs主要与RNA过程、细胞凋亡、细胞周期及胞质内翻译等相关。LASSO和RF 2种机器学习算法共同识别到5个关键基因。验证得到ITGA2B、IFITM3对NSCLC诊断价值具有显著意义。结论 ITGA2B、IFITM3可能是预测和治疗NSCLC的潜在生物标志物和新的作用靶点。
-
单位徐州医科大学; 北京大学第一医院