多光谱数据融合和GANs算法的COD浓度预测

作者:陈颖; 许扬眉; 邸远见; 崔行宁; 张杰; 周鑫德; 肖春艳; 李少华
来源:光谱学与光谱分析, 2021, 41(01): 188-193.

摘要

水体中过高浓度的有机污染物含量危害巨大,不仅会造成严重的环境污染,而且会危害人类身体健康。化学需氧量(COD)表征了水体中有机污染物的污染程度。提出了一种将紫外(UV)光谱和近红外(NIR)光谱进行多光谱数据级融合(LLDF)和特征级融合(MLDF),进而构建基于生成对抗式网络(GANs)算法的COD浓度定量预测模型。首先按照一定的浓度梯度配制COD标准液样本,分别采集标准液的UV光谱(190~310 nm)和NIR光谱(830~2 100 nm),对获取到的UV和NIR光谱数据进行一阶导数和Savitzky-Golay (S-G)平滑的预处理,消除基线漂移和干扰噪声;基于预处理过的光谱,直接进行数据级和特征级的数据融合,结合GANs算法搭建COD浓度预测模型。并使用评价参数相关系数的平方(R2)、预测值与真实浓度值的均方根误差(RMSEP)和预测偏差来对模型进行评价。结果表明,不论是特征级融合模型还是数据级融合模型都不够理想。分析原因可知,由于UV和NIR波段数据量不均衡,导致NIR波段掩盖掉了UV光谱的模型贡献度,让光谱融合失去意义。为了避免融合失败,拟采用归一化的方法处理多光谱数据,并讨论了标准归一化(SNV)、最大最小归一化(MMN)和矢量归一化(VN)对建模的影响。将经过归一化后的UV和NIR光谱数据再次进行融合,分别作为GANs模型的输入X,将真实测量COD值作为输出值Y,建立不同归一化方法处理后的COD浓度预测模型。建模结果显示,采用不同归一化方法对多光谱数据融合模型的影响较大,不论是数据级融合模型还是特征级融合模型的预测精度较未归一化之前有明显的提升,其中采用最大最小归一化的预测模型效果提升最为明显。与单一谱源的全波长UV波段的GANs预测模型、全波长NIR波段的GANs预测模型进行对比来验证多光谱数据融合GANs预测模型的精度,结果表明:基于UV和NIR光谱的特征级光谱融合模型的R2为0.994 7, RMSEP为0.976,比数据级融合的预测模型误差降低了52.9%,预测回收率为98.4%~103.1%,远好于其他几组,模型的泛化能力更强,预测精度也更高。与单一谱源的预测模型相比,多光谱数据融合能反应更多的水体样品的化学信息,更加全面揭示水体的污染物程度,从不同的层面上反应水体中污染物的差异,为在线监测水体中COD浓度提供一定的技术支持。