摘要
针对传统化学方法测定蓝莓贮藏品质存在工序复杂、成本高等问题,提出一种基于集成学习和近红外光谱技术的无损检测方法。以150个瑞卡蓝莓样本和30个绿宝石蓝莓样本为研究对象,利用近红外光谱仪采集不同贮藏时间的瑞卡蓝莓和不同成熟度的绿宝石蓝莓近红外反射光谱。利用光谱-理化值共生距离法(sample set partitioning based on joint X-Y distance, SPXY)将瑞卡蓝莓样本按照4∶1的数量比划分为训练集和验证集,绿宝石蓝莓样本为测试集,统一采用偏最小二乘法(partial least squares regression, PLSR)对比分析标准正态变换(standard normal variate transformation, SNV)、数据标准化(Z-score standardization, Z-score)、一阶导数(first derivative, 1st-D)、二阶导数(second derivative, 2nd-D)中一种或几种组合方法对原始光谱的预处理效果,使用竞争性自适应重加权采样法(competitive adaptive reweighted sampling, CARS)对蓝莓近红外光谱特征波长进行筛选,将支持向量回归(support vector regression, SVR)、极端梯度上升(extreme gradient boosting, XGBoost)和多层感知机(multilayer perceptron, MLP)作为基模型,采用Stacking集成策略,建立Stacking集成学习模型。将与蓝莓贮藏品质最为相关的维生素C、可溶性固形物(soluble solids content, SSC)和花青素作为标签,分别训练4种预测模型,其中Stacking集成模型最优,维生素C、SSC和花青素测试集相关系数R2分别为0.872 6、0.881 4和0.905 5,均方根误差(root mean square error, RMSE)分别为0.566 4、0.696 3和1.693 9,相对分析误差(relative percent deviation, RPD)分别为2.801 6、2.903 7和3.253。结果表明,该文提出的Stacking集成学习模型融合SVR、XGBoost和MLP的优势,具有精度高,稳定性好,泛化能力强的特点,可为蓝莓无损检测研究提供新的思路。
- 单位