摘要

随着DNA微阵列技术的发展和人类基因组计划的完成,从癌症基因表达数据中筛选关键基因用于癌症分类的研究已成为热点。传统的基因分类方法在处理具有高噪声、高维度特性的基因表达数据时容易产生过拟合或维数灾难问题。为了从基因表达数据中筛选关键基因,利用DNA微阵列技术测得基因在不同组织样本中的表达调控信息,采用差异基因表达分析方法,构建基因表达调控概率模型,给出基于基因表达调控概率的基因选择算法。运用肺癌数据集Selmat数据,在公开的肺癌基因表达谱数据上进行模拟验证,实验结果表明,本算法能够高效识别癌症关键基因。