摘要

近红外光谱分析以其简便、快速、高效、低成本、绿色环保等优点,已广泛应用于诸多领域。然而,近红外光谱同时存在变量维度高、多重共线性、包含冗余信息和高频噪声等问题,直接构建预测模型不但增加建模复杂度,同时也会影响模型的预测性能和泛化能力,因此提出一种基于改进和声搜索算法(HS)的光谱特征变量选择方法。HS常用于解决特征变量优化选择问题。在应用和声搜索算法进行最优光谱变量选择时,首先通过偏最小二乘(PLS)载荷系数计算各光谱点的特征贡献度,作为和声搜索算法改进的扰动权重。算法优选光谱特征变量过程中,引入变量特征贡献度作为激励因子,采用随机遍历和激励因子共同作用的方式生成初始解向量。产生新和声向量时,应用变量特征贡献度作为惩罚项,通过加入平衡因子使选择参数随迭代次数而动态调整,从而适应光谱变量的搜索,增强搜索过程的遍历性和种群的多样性。为验证本算法的有效性,以烟叶样品烟碱、总糖、总氮三个指标的近红外光谱PLS建模应用为例,对采集的原始光谱进行预处理后,应用该方法对光谱变量进行优选,根据变量被选择的累积频次分别计算不同变量个数的模型预测性能,通过校正均方根误差(RMSEC)随变量增加的变化趋势确定最终选择的光谱特征变量。在训练集上分别建立各指标的PLS模型,应用测试集测试模型性能,并与全光谱、无信息变量消除法(UVE)和粒子群算法(PSO)进行比较。实验结果显示,应用该算法所选变量建立的烟碱、总糖和总氮三个模型的决定系数(R2)分别为0.921 1, 0.925 7和0.941 2,预测均方根误差(RMSEP)分别为0.102 3, 1.034 6和0.053 1,与其他方法相比,光谱特征变量更少,同时R2和RMSEP值更优。由此表明,改进的和声搜索算法能有效筛选特征光谱,降低建模复杂度,提升模型预测性能和泛化能力。