摘要

目的探讨基于平均影响值(MIV)的支持向量机(SVM)在遗传数据疾病分类预测和变量筛选中的应用,为遗传数据的疾病分类与特征提取方面提供方法学参考。方法以GAW18(genetic analysis workshop 18)数据为例,采用基于MIV的SVM建立预测模型,并和logistic回归模型、SVM、多层感知机和决策树分类模型进行比较分析,评价基于MIV的SVM预测分类和变量筛选效果。结果经过平均影响值的支持向量机算法处理后,六个SNPs位点(1328567172、3127394820、11658093、9123969834、1174996637、1717498492)组合的变量子集,获得78.125%的分类准确率,明显优于其他分类模型。结论基于MIV的SVM能比较有效的在实现遗传数据变量筛选的同时提高分类预测能力,避免了变量间的交互作用,为探索各种疾病发病机制和寻找易感SNPs位点提供线索,具有一定的研究和应用价值。