摘要

基因组数据在畜禽遗传育种中的应用越来越广泛,基因型填充作为基因组数据处理的重要工具,填充结果的好坏直接影响后续分析,为了得到好的填充结果,需要制定完善的填充策略。本研究通过模拟数据探讨参考群体大小、目标群体与参考群体间遗传关系(距离)远近、目标位点数目(比例)、最小等位基因频率以及填充算法等因素对基因型填充效果的影响。结果表明,目标位点数目与填充效果呈显著的正相关(P<0.05),是影响基因型填充准确性的主要因素;参考群体大小是影响Beagle5.1填充错误率的主要因素,目标位点数目是影响Minimac4填充错误率的主要因素;目标群体和参考群体的遗传距离对Beagle5.1填充效果的影响较Minimac4更为显著;一般情况下,最小等位基因频率越高的位点填充错误率越高;在参考群体个体数量少且目标位点数目多的情况下,Minimac4的填充速度优于Beagle5.1,但随参考群体个体数目增加有逆趋势。在保证填充质量的前提下,Beagle5.1对本研究中几种因素的标准要求相对较低。相对地,当目标群体位点数目较低,参考群体个体数目较多时,Beagle5.1的填充效果更好,而Minimac4更适合参考群体个体数目较少,目标群体位点数目较高的填充中。本研究针对不同的填充目的制定了不同策略,为基因型填充标准提供了参考。