摘要
随着计算机科学和生物医学的发展,基因表达谱数据能够以高维数据的形式导出,这为应用数据挖掘算法对其分析处理提供了可能.基因表达谱数据存在高维度和高冗余特性,实际应用中常需要进行维度约简.基于非负矩阵分解的方法常被选择为维度约简的手段,但由于传统方法未进行针对性处理,在基因数据集上的表现不佳.针对此类数据的特点,本文提出了一种基于非负矩阵分解的改进算法,结合图正则化处理和稀疏化理论,进一步加入了去噪处理,对处理过度冗余的高维基因表达谱数据特别有效.实验表明,算法在肿瘤基因数据集上的表现整体优于传统基于非负矩阵分解的算法.
- 单位