摘要

目的利用癌症基因组图谱(TCGA)数据库,构建预测人表皮生长因子受体2(HER2)阳性乳腺癌预后的长链非编码RNA(lncRNA)风险评分模型。方法获取TCGA数据库中HER2阳性乳腺癌和正常乳腺组织的RNA表达谱及临床病理数据。基于R语言的"DESeq2"软件包、单因素Cox回归分析和Kaplan-Meier生存曲线,筛选HER2阳性乳腺癌中差异表达并与预后有统计学意义关联性的lncRNAs。利用多因素Cox逐步回归模型在训练集中构建lncRNA风险评分模型,Kaplan-Meier生存曲线评估该模型在训练集、验证集和总样本集以及不同亚组中的预测效能。结果从TCGA数据库中共获得161例HER2阳性乳腺癌和113例正常乳腺组织的RNA表达谱,"DESeq2"差异分析得到1 332个HER2阳性乳腺癌中差异表达的lncRNAs,单因素Cox回归分析和Kaplan-Meier生存曲线发现其中25个lncRNAs与预后有统计学意义的关联性,利用多因素Cox逐步回归模型建立了基于3-lncRNAs的风险评分模型:风险评分=0.710×表达量LINC01833+1.869×表达量LINC00536+2.992×表达量LINC02725。该模型可有效区分HER2阳性乳腺癌人群中预后高风险组和低风险组,Kaplan-Meier生存曲线提示高风险组生存率低于低风险组,差异有统计学意义。同时,该模型在总样本集中的时间依赖性受试者工作特征(ROC)曲线下面积(AUC)高达0.825,高于TNM分期(AUC=0.605)。此外,在TNMⅠ-Ⅱ期亚组、ER阳性亚组、PR阴性亚组和PR阳性亚组中均可有效鉴别预后较差的高风险患者。结论基于LINC01833、LINC00536和LINC02725的风险评分模型可有效预测HER2阳性乳腺癌患者的预后,为HER2阳性乳腺癌的临床管理提供参考依据。