摘要
目的通过TCGA数据库基因突变信息结合机器学习软件RapidMiner构建肝细胞癌患者复发模型。方法首先通过TCGA数据库收集316例肝细胞癌患者的临床资料和全基因组测序的突变基因信息;然后利用R语言和SPSS19.0筛选出前127个高频突变基因和12个与无疾病生存期(disease-free survivalperiod,DFS)显著相关的高频突变基因;通过RapidMiner8.0机器学习软件,利用316例患者的突变基因信息训练决策树和支持向量机(support vector machine,SVM)模型。结果通过利用TCGA数据库筛选的基因构建的决策树模型准确率为77.42%,通过构建SVM模型佐证决策树模型的最大准确率为77.42%。结论通过公共数据库构建的肝细胞癌患者的复发模型,可在临床上用来分析患者的基因检测报告,除了提供药物治疗靶点的信息外,还可初步判断患者的预后;此外,对于部分经济条件受限的患者可重点针对决策树中的基因进行检测,来预测预后及复发可能。
-
单位南京大学医学院附属鼓楼医院; 南京大学