摘要
为提高利用红外光谱数据鉴别中药材产地的预测模型效果,应该选用合适的数据预处理方法和合适的算法。针对具有3 448个特征(波长551~3 998 nm)的658条红外光谱中药材数据,借助于支持向量机(SVM)算法,研究了10种基于样本预处理方法(不做预处理、最大最小归一化、标准化、中心化、移动平均平滑、 SG平滑滤波、多元散射校正、正则化、一阶导数和二阶导数法)与5种基于特征波长预处理方法(不做预处理、中心化、最大最小归一化、标准化和正则化)的组合(共50种)对产地模型预测精度和稳定性的影响。结果表明:合适的数据预处理对提高模型精度是必要的;标准化和最大最小正则化方法光谱的预处理建模效果较好,其预测系数值约85%;基于特征的预处理对模型预测效果改进小。只做光谱预处理或基于特征预处理的预测稳定性值近似相等(两类方式的决定系数平均值都近64%);基于样本+特征的组合预处理方法中,二阶导数+标准化处理和二阶导数+正则化组合处理方法的模型预测效果好,其决定系数R2达到近94%;而中心化+正则化组合处理达不到直接采用原始数据(不做数据预处理)的建模效果,该方法预测效果最差。该研究的方法和结论为具有高维光谱特征的药材产地鉴别和选取有效的预处理方法提供了参考,对进一步分析药材药效和化学成份有重要的意义,也可供其他光谱数据分析借鉴。也为高维小样本数据建模的前期数据处理提供了思路。
-
单位温州商学院; 温州职业技术学院; 西安交通大学