摘要
目的利用Firehose数据库的数据,分析与急性髓系白血病(AML)发生、发展及预后相关的分子标志物,构建基于机器学习算法的AML 1年预后模型。方法从GDC(Genomic Data Commons)的外部链接Broad Firehose数据库中下载关于AML患者的临床及转录组数据,筛选出符合要求的生存期及mRNA测序数据的病历共163例。运用R语言DESeq程序包进行差异表达基因的筛选,并应用R语言的Rattle程序包构建基于20基因的AML 1年预后生存模型。结果 EBF4、MTUS2、NT5E、AEF2、IGDCC4基因表达水平上调,与预后良好有关,ADAMTS2、TRPM4、PACSIN1、CACNG4、SPON1、CCDC3、C10orf72、MAOA、ESPN、C1QA、LILRA4、UBXN10、LIF、WDR86、PEG10基因表达水平上调,与不良预后相关,可以作为AML发生、发展的相关生物标志物。与决策树(Desicion Tree)、随机森林(RF)、支持向量机(SVM)、线性回归(Linear Regression)、人工神经网络(ANN)AML预后模型相比,Boost模型曲线下面积(AUC)值最高,为0.75。结论基于机器学习算法构建的模型能较准确地预测AML的预后,Boost预后模型判断AML患者1年预后的预测效果更佳。
-
单位吉林大学中日联谊医院