摘要

线性判别分析(LDA)是机器学习和数据挖掘中一种常用的基于模型的分类方法。尽管该分类方法在许多实际应用中表现良好,但在处理高维数据时其效果却很不理想。其原因在于:当变量数目p接近或者大于样本数目n时,样本协方差矩阵不再是真实协方差矩阵的一个良好估计,导致线性判别函数值产生了较大的偏差。文中提出了一种基于随机矩阵理论的高维数据分类器正则化方法。首先,利用随机矩阵理论,分别以旋转不变估计法(当p≤n时)或者特征值截取法(当p>n时)对高维协方差矩阵进行一致估计;然后,使用估计出的高维协方差矩阵计算判别函数值。在模拟数据集和3个微阵列数据集上进行的分类实验的结果表明,所提线性判别分析方法在处理高维数据时不但适用范围更广,而且具有较高的分类正确率。