摘要

糖度是评价苹果内部品质的重要指标之一。建立苹果糖度预测模型时,建模样本和波长的质量影响模型的准确性和后期的更新维护。以90个苹果样本为研究对象,采集350~1 150nm波段共1 044个波长的苹果近红外漫透射光谱,研究基于最小角回归索套算法(LASSOLars)优选建模样本和波长的有效性和可行性。结合使用Norris平滑、一阶微分和归一化变量排序对光谱预处理。根据浓度排序划分样本集的75%为原始训练集(68个)和25%为预测集(22个),使用LASSOLars建立优选训练集,对比LASSOLars和蒙特卡罗无信息变量消除、竞争性自适应重加权法,从样本、波长的数目和分布以及模型的结果进行对比分析。结果表明,优选训练集压缩了原始训练集16%的样本,在不改变原始训练集平均水平的前提下,更接近预测集分布,没有削弱模型质量。优选和原始的训练集交叉验证均方根误差RMSECV分别为0.460和0.491,交叉验证决定系数R2CV分别为0.913和0.916,预测集均方根误差RMSEP分别为0.462和0.471,预测集决定系数RP2分别为0.909和0.906。LASSOLars筛选出40个信噪比高的波长,数目最少,建立的模型效果最好,RMSECV,R2CV,RMSEP,RP2和RPD分别是0.933,0.400,0.944,0.373和2.838。基于LASSOLars优化建模样本和波长建立苹果糖度预测模型,拓展了LASSOLars算法在子集选择方面的应用,为优化、更新和维护模型提供思路。