摘要

太赫兹时域光谱不但包含了样品的化学信息和物理信息,还承载了设备噪声、样品状态、环境参数等多方面的背景信息,其光谱的多元性可能影响模型的性能,降低预测精度。能否在复杂、重叠、变动背景下从光谱数据中提取目标组分的特征信息,去除冗余变量,筛选特征谱区,对太赫兹光谱定量、定性分析至关重要。以L-酒石酸为研究对象,在室温下采集6个浓度:10%,20%,40%,50%,60%和80%,共计342个样本的L-酒石酸太赫兹吸收光谱。利用密度泛函理论(DFT)中的B3LYP方法,基于6-31G*(d,p)基组对L-酒石酸单分子模型进行优化并对其太赫兹频谱特性进行理论模拟计算,分析对应特征波峰的分子振动模式,得到0.2~1.6THz频段吸收谱。与实测吸收谱进行对比,实验所测结果与理论计算结果对应的吸收峰位置基本吻合。采用自举软缩减法(BOSS)对L-酒石酸的太赫兹吸收谱进行特征谱区筛选,并与竞争性自适应加权采样(CARS)、蒙特卡洛无信息变量消除法(MC-UVE)和间隔区间偏最小二乘法(iPLS)3种经典特征谱区筛选法进行对比,分析结果显示BOSS算法选取的有效谱区与DFT理论计算特征谱区重合度最优。分别使用全谱PLS,CARS-PLS,MC-UVE-PLS,iPLS及BOSS五种算法对L-酒石酸光谱进行建模回归分析,实验结果表明,四种谱区筛选方法相较于全谱PLS模型,预测精度均有所提高,其中BOSS算法预测能力提高最为显著,其交互验证均方根误差(RMSECV)、预测均方根误差(RMSEP)、训练集决定系数(R2train)和测试集决定系数(R2test)分别为0.026 0,0.026 0,0.988 1和0.987 5,相较其他模型有更高的预测精度和模型稳定性,为实现基于太赫兹光谱技术的快速定量检测提供了一种有效的方法。