基于机器学习的猪生长性状基因组预测

作者:陈栋; 王书杰; 赵真坚; 姬祥; 申琦; 余杨; 崔晟頔; 王俊戈; 陈子旸; 王金勇; 郭宗义; 吴平先; 唐国庆*
来源:遗传, 2023, 45(10): 922-932.
DOI:10.16288/j.yczz.23-120

摘要

为了比较自动机器学习下不同机器学习模型预测部分猪生长性状与全基因组估计育种值(genomic estimated breeding value,GEBV)的性能,并寻找适合的机器学习模型,以优化生猪育种的全基因组评估方法,本研究利用来自多个公司9968头猪的基因组信息、系谱矩阵、固定效应及表型信息通过自动机器学习方法获取深度学习(deep learning,DL)、随机森林(random forest,RF)、梯度提升机(gradient boosting machine,GBM)和极致梯度提升(extreme gradient boosting,XGB)4种机器学习最佳模型。采用10折交叉验证分别对猪达100 kg校正背膘(correcting backfat to 100 kg,B100)、达115 kg校正背膘(correcting backfat to 115 kg,B115)、达100 kg校正日龄(correcting days to 100 kg,D100)、达115 kg校正日龄(correcting days to 100 kg,D115)的GEBV及其表型进行预测,比较不同机器学习模型应用于猪基因组评估的性能。结果表明:机器学习模型对GEBV的估计准确性高于性状表型;在GEBV预测中,GBM在B100、B115、D100、D115的预测准确性分别为0.683、0.710、0.866、0.871,略高于其他方法;在表型预测中,对猪B100、B115、D100、D115预测性能最好的模型依次为GBM(0.547)、DL(0.547)、XGB(0.672、0.670);在模型训练所需时间上,RF远高于其他3种模型,GBM与DL居中,XGB所需时间最少。综上所述,通过自动机器学习获取的机器学习模型对GEBV预测的准确性高于表型;GBM模型总体上表现出最高的预测准确性与较短训练时间;XGB能够利用最短的时间训练准确性较高的预测模型;RF模型的训练时间远超其他3种模型,且准确性不足,不适用猪生长性状表型与GEBV预测。

全文