摘要
当近红外光谱信息远大于样本量时,对光谱信息进行自动变量选择进而建立光谱与样品含量的稀疏线性模型重要且具有挑战性。利用近红外光谱,将变量选择方法 Elastic Net用于聚苯醚生产过程中微量成分邻甲酚的测量,建立近红外光谱与邻甲酚含量之间的定量校正模型,并将其模型预测效果与Lasso方法进行对比。在变量数目远远大于样本量的情形下,Lasso方法虽可实现变量选择,但由于对系数的过度压缩,使得模型的预测精度受到影响,而Elastic Net通过增加L2惩罚项避免了过多删失数据,可以提高模型预测精度。为了验证Elastic Net方法的模型性能指标,用复相关系数R2和调整的复相关系数R2a来评价模型的可解释性,利用平均相对预测误差MRPE(mean relative prediction error)和预测相关系数Rp来评价模型的预测精度。Lasso方法建立的模型性能指标为:R2=0.94,R2a=0.93,MRPE=4.51%,Rp=0.96;Elastic Net方法的性能指标为:R2=0.97,R2a=1,MRPE=3.25%,Rp=0.98。结果表明,Elastic Net所建立模型的性能指标优于Lasso方法,可以得到可解释性较强和预测精度较高的稀疏线性模型。
- 单位