摘要

如何从海量或高维数据中"提纯"出有用的信息,这是当前数据分析面临的一个巨大的挑战,也是当前研究的一个热点。变量筛选技术能够从众多、复杂的量测数据中提取出特征信息变量,达到简化多元模型乃至提高模型预测性能等目的。在光谱分析中,来自噪声等诸多因素的影响,量测数据会不可避免地包含干扰和无关信息变量,以及变量间存在的多重共线性,这些都会影响模型的稳健性和预测能力。近年来变量(波长)筛选方法在光谱解析领域的研究与应用中取得了较大的进展。结合国内外相关研究文献和作者的研究体会,不仅仅综述了近红外光谱,还综述了中红外光谱、拉曼光谱等众多筛选变量的方法的提出、特点、发展、类别、比较和近五年来在不同领域的应用进展。其中,评价变量重要性的参数及其标准或阈值的选择、搜索变量的策略和途径是变量筛选方法的关键。而且每种方法都具有各自的优势和局限性,实际使用中要根据方法自身特点结合目标体系的特征选择合适的方法。重点内容:(1)对比了光谱数据分析中常用的波长筛选和波段筛选方法;(2)对比了基于PLS模型参数的不同变量筛选方法的原理和特点;(3)根据搜索和筛选变量策略的不同将变量筛选方法进行分类评述。最后,围绕在解析实际复杂体系中变量筛选方法出现的过拟合、不稳定等问题进行了讨论并提出相应的解决措施,同时对变量筛选方法的研究趋势、发展前景和应用方向进行了展望。其中,新的评价变量重要性的判据和搜索变量的策略等工作仍需要展开深入地研究。期望本综述能够对光谱变量筛选的后续研究及应用起到积极的推动作用。