摘要

正确地将癌症划分到适当的类别是微阵列基因芯片应用的重要研究课题之一。但是微阵列实验产生的高维数据中大量的无意义基因常常使得分类问题变得复杂。为了解决这一问题,不少变量选择方法已经被采用。不过,目前这些方法中很少致力于为每类癌症都选取一组相关的特征基因,并且这些方法的数据降维能力也相对有限。此外,大部分的变量选择方法都忽视了含有同一癌症不同子类划分信息的一类基因,该类基因是促使患有同种癌症的不同病人能得到更合适的治疗的关键。本文中,我们描述了一种基于为每种癌症均选取最有意义基因组思想的新的变量选择方法。同时,因为该方法并不依赖于样本的均值或方差,癌症的子类信息也得到了更好的提取。该方法已经被应用于两个公开发表的数据集。变量选择的结果显示数据集中的各类癌症的相关特征基因都得到了很好鉴别。分类应用中,每类中少数几个重要基因在经过高斯变换后得到的特征变量将被重新组合,并作为支持向量分类器的输入。两个数据集的分类结果表明,由该变量选择方法提取的变量能促使分类模型得到近乎完美的分类准确性。

  • 单位
    湖南大学; 化学化工学院; 化学生物传感与计量学国家重点实验室