摘要

目的 使用多重支持向量机递归特征消除算法(MSVM-RFE)对癌症的基因表达谱数据进行分析并计算基因排序分数,得到最优特征基因子集。方法 从高通量基因表达数据库下载膀胱癌、乳腺癌、结肠癌和肺癌的基因表达谱数据并通过差异表达分析得到差异表达基因。对差异表达基因进行基于MSVM-RFE算法的特征基因排序并计算每种基因子集的平均测试误差,进而根据最小平均测试误差得到最优基因子集。基于4种癌症特征基因筛选前后的数据集,分别构建线性SVM并验证最优特征基因子集的分类效能。结果 使用MSVM-RFE算法得到的最优特征基因子集,可使膀胱癌的分类准确率从(96.77±1.28)%提高至(99.85±0.46)%,使乳腺癌的分类准确率从(83.77±4.93)%提高至(88.30±3.85)%,肺癌的分类准确率从(72.69±2.41)%提高至(90.21±3.31)%,使结肠癌的分类准确率维持在较高的程度(>99.5%)。结论 基于MSVM-RFE算法的特征基因提取可在一定程度上提高癌症的分类效能。