摘要
【目的】对不同品种的茶叶进行区分和产地溯源,同时为其他植物分类提供参考依据。【方法】以简单重复序列标记(Simple sequence repeat,SSR)为基础,运用生物信息学的研究方法,对来自湖南、云南、福建和浙江省的313个茶叶样本的来源属地及10个外类群关系进行研究:首先,筛选出高质量的54个SSR位点,通过主成分分析(Principal compon ent analysis,PCA),构建进化树,分析各省间茶叶样本的差异度;其次,通过比较线性回归模型、随机森林模型和深度神经网络(Deep neural network,DNN)模型的分类准确度,选择准确度最高的神经网络模型进行溯源模型构建及优化。【结果】4个省的茶叶样本个体相对聚集,其中云南省的样本个体较其他省份差异大;福建、浙江、湖南的样本分别聚集,表明福建、浙江、湖南三省间茶叶差异显著,但有少量交叉,具有一定的相似遗传结构特性,亲缘关系较近。利用3种不同的模型对54个SSR分子标记矩阵构建模型,初步鉴定出线性回归模型准确率为81%,随机森林模型准确率为77%,而DNN模型准确率最高、为86%,由此可得出DNN模型对茶叶的分类效果最好。随后利用54个SSR分子标记和323个样本构建预测模型,并对一次训练的样本个数(Batch size)、训练的次数(Step size)、隐藏层层数及每层节点数进行优化,发现这4个参数的优化结果当样本个数为150、训练次数为20 000、隐藏层层数为2层时验证集和测试集的准确率最高、约95%,即2层神经网络对茶叶分析效果最佳。【结论】基于深度神经网络的SSR分子标记为茶叶分类、产地溯源研究和茶叶育种等方面提供支持依据,构建的分类模型也可用于其他物种重测序数据的属地来源鉴定。
-
单位生命科学学院; 惠州学院; 经济管理学院