摘要
作为二次分析方法,近红外光谱分析的重现性和可靠性非常依赖于建模过程。以近红外光谱小麦蛋白质定量分析模型为例,研究了多变量定标建模过程中异常样本问题,旨在讨论复杂样本建模中的样本对模型的影响和作用。以PLSR算法建模中校正方差与验证方差的解释百分比曲线的背离特性作为异常样本存在的判据,当两个百分比曲线显著偏离时,则认为样本集中存在异常样本,并对建模产生了显著影响。异常样本的识别和处理,以及影响分析是本文主要的创新性工作,采用了基于样本删除的子模型遍历统计方法,能够渐次识别并提取出异常样本。在剔除异常样本后的模型预测结果中,以模型的预测残差标准差作为参考距离对异常样本进行了离群程度分级,可分为显著离群样本,相对离群样本以及潜在离群样本,数据集中显著离群样本约占7.8%,相对离群样本约占15.6%。异常样本对模型的影响表现在对正常样本的预测残差上,使预测值偏离理想拟合直线,分散性增加。剔除异常样本或以样本权重建模可有效抑制异常样本的影响,使模型的解释性更偏向于多数样本数据,降低模型的经验风险误差。
-
单位长春理工大学; 吉林省科学技术信息研究所