摘要

在近红外光谱的定量分析中,由于仪器的精密程度越来越高,采集的光谱数据通常具有很高的维度。因此,波长选择对于剔除噪声及冗余变量,简化模型,提高模型的预测性能是必不可少的。近红外光谱特征波长选择方法众多,但变量间的多重共线性问题仍是导致模型效果较差的一个关键问题。变量间共线性可以通过相关系数进行分析,当相关系数高于0.8,表明存在多重共线性。据此,以变量间相关系数为选择标准,提出一种以所选变量之间共线性最小化的波长选择方法,称之为最小相关系数法(MCC)。该方法以光谱数据的相关系数矩阵为基础,挑选出与其他波长相关系数平均值和标准差均较小的波长为候选建模波长集合,使得集合内波长之间线性相关性最小,进而消除模型变量之间共线性。然后通过标准回归系数优选对因变量影响较大的波长,获得预测模型。为了验证所提出算法的有效性,对该方法进行了测试。利用两组公开的近红外光谱数据集(柴油数据集、土壤数据集),通过MCC算法进行波长选择,并与常用的几个波长选择方法,如:连续投影算法(SPA)、竞争性自适应重加权采样法(CARS)、随机蛙跳算法(RF)、迭代保留信息变量法(IRIV)进行比较。实验结果表明,MCC算法获得了良好的预测性能,MCC算法的预测精度相比于SPA, CARS和RF三种算法具有明显的优势,而MCC算法的预测精度与IRIV算法不相上下。因此,最小相关系数法可实现高效降维,提高模型的预测精度,是一种有效的波长选择算法。