摘要

近红外光谱中包含了物质中有机分子含氢基团的特征信息,具有维度高、冗余大等特点。传统的基于浅层校正模型,比如主成分回归、偏最小二乘回归、人工神经网络、支持向量回归等,无法提取近红外光谱数据深层的信息。提出一种基于堆叠监督自动编码器的近红外光谱建模方法,不仅可以拟合光谱数据与理化值之间复杂的非线性关系,还可以提取数据深层的特征信息。首先通过对比不同的光谱预处理对模型预测结果的影响,选择最优的预处理方法,然后再使用相关系数法提取特征波段。将处理好的近红外光谱数据作为堆叠监督自动编码器的输入信号,利用理化值对多个监督自动编码器进行有监督的预训练;将多个经过预训练的监督自动编码器进行堆叠,得到堆叠监督自动编码器;将预训练的参数作为堆叠监督自动编码器的初始化参数,然后再利用理化值对堆叠监督自动编码器进行有监督的微调,最后得到模型的最优参数。分别利用玉米含水量和黄酒总酸含量等近红外数据集进行验证,建立了偏最小二乘回归预测模型、人工神经网络预测模型、堆叠自动编码器预测模型和堆叠监督自动编码器预测模型,验证了堆叠监督自动编码器建模的可行性;以预测均方根误差和预测相对分析误差两个指标对比分析了偏最小二乘回归、反向传播人工神经网络、堆叠自动编码器及堆叠监督自动编码器四种建模方法的评价指标。分析结果表明,采用该方法建立的模型,模型预测效果更好,玉米含水量数据集的两个评价指标达到了0.060 4和4.313;黄酒总酸含量数据的两个评价指标达到了0.120和4.227,均优于另外三种方法。