基因表达数据中加权SAM法的基因选择和分类预测研究

作者:任雨冬; 陆震; 李婧惟; 刘艳*
来源:实用预防医学, 2020, 27(12): 1537-1540.
DOI:10.3969/j.issn.1006-3110.2020.12.036

摘要

目的使用高斯核函数和欧式距离函数改进微阵列显著分析法(significance analysis of microarray,SAM)得到MSAM1法(modified significance analysis of microarray-1,MSAM1)和MSAM2法(modified significance analysis of microarray-2,MSAM2),与SAM法、Relief法、支持向量机递归特征消除法(support vector machine recursive feature elimination, SVM-RFE)进行对比,评价在基因表达数据中MSAM1法、MSAM2法的基因选择和分类预测能力。方法从Bioconductor中的golubEsets包获得leukemia数据集(Golub等人给出了该数据集所包含的50个差异基因),运用R软件实现5种算法,分别用正确率和ROC曲线下面积即AUC值评价基因选择能力和分类预测能力,用Kruskal-Wallis H检验比较5种方法的正确率和AUC值的组间差异,进一步的两两比较采用SNK-q检验。结果正确率和AUC值均表现为MSAM1和MSAM2最优,SAM和SVM-RFE法次之,Relief法排在最后;5种方法的组间差异有统计学意义(H=150.333,P<0.0001和H=293.2579,P<0.0001),两两比较结果显示虽然MSAM1和MSAM2之间差异无统计学意义(P>0.05),但两种方法与其他3种方法之间差异均有统计学意义(P<0.05)。结论用高斯核函数和欧式距离函数改进的加权SAM法提高了SAM法的基因选择和分类预测能力,在实际基因表达数据的应用中可以得到更为稳定的分析结果。

全文