多元校正方法PLS的样本和变量加权

作者:徐路; 蒋健晖; 周敬良; 吴海龙; 沈国励; 俞汝勤
来源:第九届全国计算(机)化学学术会议, 中国四川成都, 2007-08-01.

摘要

在通常的多元校正方法中,一旦确定了校正集的样本用以建立描述预测变量和相应变量之间关系的模型,这些校正集样品在模型建立时被认为有相同的贡献,这时就忽略了样本的代表性的差异。在文献[1]中,我们把加权采样的概念引入 PLS,提出了一种称为最优样本加权 PLS 的新的多元校正方法。最优样本加权 PLS 与通常的 PLS 的区别在于,它建立了一个新的校正集,其中的每一个样本都按照其代表性的大小被加权,以改善 PLS 算法的预测性能。一种新近提出的全局优化方法,粒子群优化算法被用来选择最佳样本权重,同时优化原始校正集的训练和一个独立测试集的预测。我们把该方法用于两个实际的数据集,并且把所得结果和 PLS 方法的结果进行了比较。对于猪肉光谱数据,最优样本加权 PLS 相比于 PLS 获得了最明显的改善,预测均方根误差从3.03降低到2.35。对于柴油光谱数据,从4种被分析物的预测结果来看,最优样本加权 PLS 取得了比 PLS 稍优或者类似的结果。数据处理的结果显示在表1中。我们也研究了粒子群优化算法的稳定性和效率,结果表明最优样本加权 PLS 能够在较少的粒子群优化循环中获得比较理想的结果。研究的结果表明,最优样本加权 PLS 能够在一定程度上解决样品代表性差异的问题,所以从这种意义上说,它是一种有应用前景的多元校正方法。

  • 单位
    化学化工学院; 湖南大学; 化学生物传感与计量学国家重点实验室