摘要

为了从高维基因表达谱数据中识别出与肿瘤分类高相关的基因子集,提出一种基于最小冗余最大相关(minimal redundancy maximal relevance, mRMR)和改进磷虾群(improve krill herd, IKH)算法的两阶段混合特征选择算法,即采用最小冗余最大相关算法评价特征重要性以筛选出高相关、低冗余的基因子集,然后,结合改进磷虾群算法迭代寻优对特征进一步提取。采用支持向量机(support vector machine, SVM)算法作为分类器,在6个肿瘤基因数据集上进行实验分析和比较。实验结果表明,文中提出的方法在分类准确率和特征选择数量方面相比其他算法具有更好的表现。

全文