摘要
目的:采用随机森林算法,结合西洋参的理化性质,建立精准预测西洋参生长年限的机器学习模型,为市场上西洋参年限鉴定提供工具。方法:以前期收集的106批2~4年的西洋参样品为基础,采用西洋参醇溶性浸出物含量、人参皂苷Rb1含量、西洋参长度等9种理化特征作为数据特征进行分析。按照随机分割方法将数据集分为训练集和验证集,使用随机森林算法进行建模,并以多元线性回归作为对照模型,分别进行训练和验证。对所有特征的重要性进行分析和筛选,采用筛选后的特征再次进行建模,评估模型的准确性。结果:初步建模结果表明,随机森林模型预测准确度优于多元线性回归,特征重要性分析表明,长度、重量、醇溶性浸出物含量、水溶性浸出物含量、人参皂苷Rb1含量5种理化性质的重要性较高。使用筛选后的特征再次建模,得到改进后的随机森林模型。改进后的模型较原始模型准确性均有一定的提升:验证集上的均方误差为0.017,决定系数为0.950,可用于鉴别2~4年生西洋参。结论:基于我国规范化种植的不同生长年限的西洋参样品,建立了生长年限判定的数学统计分析方法。该方法快速、准确、可靠,可作为西洋参生长年限判断的依据,从而为西洋参质量评价提供了新的研究思路。
-
单位中国食品药品检定研究院