摘要
目的通过支持向量机递归特征消除算法和人工神经网络算法筛选构建一种基于mRNA基因表达的鼻咽癌诊断预测模型, 为临床早期筛查、干预以及分子机制的研究提供参考。方法从GEO、国际癌症基因组联盟(ICGC)和GTEx公共数据库中获取了鼻咽癌患者(n=216)和正常对照者(n=248)的微阵列与转录组测序基因表达谱数据。首先通过差异表达分析确定了与鼻咽癌相关的差异表达基因, 再利用支持向量机递归特征消除算法筛选出重要的基因特征。最后利用人工神经网络算法构建了鼻咽癌诊断预测模型, 并通过内部和外部验证集的分析评估了模型的准确性和预测性能。结果本研究共鉴定了457个差异表达基因。随后通过支持向量机递归特征消除算法筛选出了6个重要基因特征, 分别为尿激酶型纤溶酶原激活物(PLAU)、SHISA3、基质金属蛋白酶1(MMP1)、富含脯氨酸突触相关蛋白SHANK2、含卷曲结构域的蛋白(CCDC)39和MEX3A。基于这些特征, 利用人工神经网络算法构建诊断预测模型。该模型在训练集上的受试者工作特征曲线(ROC)下的面积(AUC)为0.970, 内部验证集的AUC为0.907。外部验证结果显示, 模型在转录组测序数据集、微阵列数据集以及包含转录组和微阵列的独立数据集上的AUC分别为0.851、0.842和0.791。结论本研究鉴定了几个潜在的鼻咽癌重要基因特征, 基于重要基因特征构建了诊断预测模型, 该模型在不同数据来源的外部验证集中展现出了良好的泛化能力, 有望为临床早期筛查和治疗干预以及分子机制的研究提供新的思路和参考。
- 单位