摘要
光谱技术与机器学习算法结合快速识别微塑料,为微塑料的现场检测提供了极大的技术支持,是一个得到极大关注的新领域。近红外光谱检测技术具有检测速度快、灵敏度高、不损坏样品,且可以在不对样品进行预处理的情况下直接检测等特点,在化学分析、质量检测等领域广泛应用。本文基于近红外光谱检测技术,研究比较了结合Support Vector Machine(SVM)和Extreme Gradient Boosting(XGBoost)两种机器学习分类算法,构建微塑料的高速有效识别分类模型。采用微型近红外光谱仪采集了20种常见的微塑料标准样品的光谱数据,为了防止过拟合,对每种样品多次采样,共收集了1 260个微塑料样本,每个样本包含512个数据点。利用XGBoost算法进行特征重要性排序,共提取了对识别准确率影响较大的65个数据点。分别采用SVM算法和XGBoost算法对数据降维后提取的65个数据点建立微塑料快速识别模型,并运用网格搜索(GridSearchCV)对XGBoost算法影响较大的超参数进行选取,确定n_estimators, learning_rate, min_child_weigh, max_depth, gamma的最佳超参数分别为700, 0.07, 1, 1, 0.0。为了提高模型的稳定性,识别速率和泛化能力,对模型采用10折交叉验证和混淆矩阵评估;研究结果表明,XGBoost模型对微塑料的识别准确率为97%,而SVM模型对微塑料的识别准确率为95%; XGBoost模型对微塑料识别的正确率优于SVM模型。综上所述,XGBoost模型微塑料识别整体性能优于SVM模型,为实际微塑料快速识别提供技术支撑。
-
单位中国科学院; 哈尔滨工业大学(威海); 中国科学院烟台海岸带研究所; 中国科学院大学