摘要
目的基于单细胞RNA测序(scRNA-seq)生物信息学分析的预后相关的差异表达基因构建膀胱癌预后风险模型并验证。方法从基因表达综合(GEO)数据库中下载膀胱癌scRNA-seq数据集GSE135337、GSE129845, 数据更新时间分别为2022年、2019年;下载常规转录组数据集GSE13507(数据更新时间为2020年)中165例膀胱癌样本的表达谱及其生存信息。从癌症基因组图谱(TCGA)数据库中下载414例膀胱癌样本和19例癌旁样本的表达谱数据及405例膀胱癌患者的临床信息。采用R 4.1.2软件对GEO数据库中的10例膀胱癌单细胞样本进行质量控制及降维聚类并对其进行细胞注释;采用CellChat分析GEO数据库中单细胞数据的细胞间通信。采用单因素Cox比例风险模型分析筛选与膀胱癌预后相关的差异表达基因, 并使用LASSO-Cox回归分析构建预后风险模型, 计算风险评分。根据中位风险评分, 以TCGA数据集中膀胱癌患者为训练集, 将患者分为低风险组和高风险组;采用GEO数据库GSE13507数据集为验证集进行验证, 通过Kaplan-Meier分析比较训练集、验证集低风险组和高风险组患者的总生存情况。通过时间依赖受试者工作特征(ROC)曲线分析评估预后风险模型的预测效能;采用R 4.1.2软件构建预测患者1、3、5年总生存率的列线图。分析TCGA数据集中膀胱癌患者风险评分与相应临床病理特征之间的关系, 并进行基因本体(GO)及京都基因与基因组百科全书(KEGG)富集分析和基因集富集分析(GSEA)。结果 GSE135337和GSE129845数据集中, 根据质量控制标准过滤后获得了50 263个细胞, 其中43 519个细胞为尿路上皮细胞。尿路上皮细胞与成纤维细胞在膀胱癌微环境中具有更多的细胞交互作用, 尿路上皮细胞主要通过中期因子信号通路发送信号。筛选出9个预后相关的差异表达基因(SPINK1、FN1、EFEMP1、ELN、PCOLCE2、TUBA1A、COL14A1、TCF4和TM4SF1)并构建预后风险模型, 风险评分=-0.019×SPINK1+0.028×FN1+0.025×EFEMP1+0.023×ELN+0.098×PCOLCE2+0.004× TUBA1A+0.047×COL14A1+0.004×TCF4+0.096×TM4SF1。根据风险评分中位值(1.350), 训练集、验证集高风险组(≥1.350)患者OS较低风险组(<1.350)差。ROC曲线分析表明, 在训练集与验证集中1、3、5年总生存率的曲线下面积(AUC)均>0.65。根据年龄、分期和预后模型风险评分构建预测患者1、3、5年总生存率的列线图, 其校正曲线接近理想曲线。风险评分在>60岁患者, M分期为M1, N分期为N1、N2、N3, TNM分期为Ⅲ、Ⅳ期时均升高, 差异均有统计学意义(均P<0.05)。富集分析发现多个显著富集的基因与体液免疫应答、粒细胞趋化、细胞因子-细胞因子受体相互作用和B细胞介导的免疫等功能与通路相关。结论基于scRNA-seq数据构建的较为稳定的膀胱癌预后预测模型可为临床评估患者预后提供参考。
-
单位山西医科大学第一医院; 第一临床医学院; 山西医科大学