摘要

已有的土壤有机质含量估测模型大多以光谱特征波段、线性和非线性模型为基础,较少考虑通过拓展样本数据建模集来提高模型的估测能力。为进一步提高土壤有机质高光谱反演模型估测精度,提出利用生成式对抗网络(GAN)合成伪高光谱数据和有机质含量的动态估测模型。选取湖南省长沙市及周边区域的水稻田为研究对象,采集土样和实测高光谱数据(350~2 500 nm),室内化学测定有机质含量。以高光谱数据和有机质含量为基础,利用生成式对抗网络生成等量新数据,结合原始数据建模集组成增强建模集。在GAN正式训练中,每轮训练完成后,设置4个观测点(对应增强建模集中含50, 100, 150和239个生成样本),动态构建交叉验证岭回归(RCV)、偏最小二乘回归(PLSR)和BP神经网络(BPNN)土壤有机质含量估测模型(分别简称GAN-RCV, GAN-PLSR和GAN-BPNN),并在相同测试集上实施模型评估。实验结果表明:(1)原始数据建模集上拟合的估测模型中,交叉验证岭回归表现最佳,决定系数(R2)和均方根误差(RMSE)分别为0.831 1和0.189 6;(2)GAN的150轮正式训练中,增强建模集上动态构建的GAN-RCV, GAN-PLSR和GAN-BPNN模型性能显著提高,具体表现为:GAN-RCV的R2取得最大值0.890 9(RMSE 0.153 7)、最小值0.850 5 (RMSE 0.18)与平均值0.868 7(RMSE 0.168 6),最大R2比建模集上拟合的RCV提高了7.2%(RMSE降低了18.9%), GAN-PLSR获得R2最大值0.855 4(RMSE 0.176 9)、最小值0.727 0 (RMSE 0.243 2)与平均值0.780 1 (RMSE 0.217 7),最大R2比建模集上拟合的PLSR提高了20.6%(RMSE降低了29.5%), GAN-BPNN表现最佳,R2取得最大值0.905 2(RMSE 0.143 3)、最小值0.801 7(RMSE 0.207 3)与平均值0.868 1(RMSE 0.168 6),最大R2比建模集上拟合的BPNN提高了30.8%(RMSE降低了44.5%);(3)随着增强建模集中生成样本数量增加,模型精度提升效果呈先升后降趋势,4个观测点中第3个观测点的模型性能提升最显著。充分的实验表明:基于GAN动态构建的有机质含量估测模型显著改善了模型预测性能。依据测试集上的评估结果,可择优使用最佳模型进行后续土壤有机质含量估测。