红外光谱数据集划分比例及预处理方法研究

作者:朱思聪; 高西娅; 张朱珊莹*; 曹汇敏; 郑冬云; 张莉; 谢勤岚; 撒继铭
来源:Chinese Journal of Analytical Chemistry, 2022, 50(09): 1415-1429.
DOI:10.19756/j.issn.0253-3820.221001

摘要

血红蛋白浓度是人体的一项重要生理指标,其异常将导致多种疾病。近红外光谱分析技术可以快速、无试剂检测人体中血红蛋白的含量。但是,红外光谱重叠严重、有效信息弱、易受外界噪声干扰,因此通常需要对光谱数据进行数据集划分和预处理,建立定量模型,以去除干扰信息对预测模型的不良影响。如何选择最佳划分方法、最佳划分比例和最佳预处理方法仍是一个问题。针对此问题,本研究以190份不同浓度血红蛋白血液样本和150份不同浓度血红蛋白仿体溶液样本的近红外光谱数据为研究对象,研究等间隔划分法、 K_S法(Kennard Stone)、 SPXY法(Sample set partitioning based on joint x-y distances method)以及双向算法(Duplex)在41种不同划分比例下偏最小二乘(Partial least squares, PLS)模型的预测能力;将小波变换(Wavelet transform, WT)、标准正态变量变换(Standard normal variate, SNV)、直接正交信号校正(Direct orthogonal signal correction, DOSC)、 S_G(Savitzky Golay)一阶求导这4种单独预处理方法(考虑顺序)组成65种预处理方法组合,研究这65种预处理组合对PLS定量分析模型预测精度的影响。实验结果表明:两种数据集的PLS模型最优数据集划分方法均为SPXY法,血液样本最佳划分比例为0.48,仿体溶液最佳划分比例为0.90。65种预处理方法中,血液样本的最佳预处理组合为S_G1+WT,此时预测集相关系数(Correlation coefficient of prediction set,Rp)为0.9808,预测集均方根误差(Root mean square error of prediction set, RMSEP)为0.2701;仿体溶液样本的最佳预处理组合为SNV+WT,此时Rp为0.9952, RMSEP为3.8154。预处理组合时,两种算法叠加的效果最好。本研究结果为此类光谱数据的处理提供了一种新的思路和方法。

全文