全基因组关联分析中混合模型的原理、优化与应用

谭力治; 赵毅强<sup>*</sup>

摘要

全基因组关联分析（genome-wide association study,GWAS）是定位基因组中与性状显著关联的变异位点的有效方法。随着表型记录的完善、高通量基因型分型技术的发展，以及统计方法的改进，全基因组关联分析在人类疾病、动物植物遗传等领域得到了广泛的应用。假阳性是影响全基因组关联分析结果可靠性的重要因素之一。为了控制假阳性，除了校正P值，GWAS模型从最简单的方差分析（或用于质量性状的卡方检验）到加入固定效应协变量的普通线性模型（general linear model,GLM），再到加入随机效应的混合线性模型（mixed linear model,MLM）持续改进，控制了多种混杂因素导致的假阳性。将个体的遗传效应拟合为由基因组亲缘关系矩阵（genomic relationships matrix,GRM）定义的随机效应是目前常用的方法。由于MLM的参数估计大量消耗计算资源，研究人员不断尝试模型求解优化和GRM的构建优化（GRM的构建优化同时也提高了计算效率），最终将基于MLM计算的时间复杂度由O(MN3)逐步改进到O(MN)，实现了计算速度与统计功效的飞跃。针对质量性状病例对照比失衡带来的假阳性问题，研究人员进一步对广义混合线性模型（generalized linear mixed model,GLMM）进行了校正。本文较全面地介绍了GWAS的基本原理和发展，着重阐述了GWAS中MLM模型的改进和优化细节，同时，列举了GWAS在农业中的应用，包括在植物、动物和微生物方面的研究成果，以及基于单倍型的GWAS应用。最后，从进一步提高GWAS统计功效和GWAS试验设计2个角度对GWAS未来的发展进行了展望。

单位
中国农业大学

收藏分享被引浏览

更新时间：2024-03-18 10:19

全基因组关联分析中混合模型的原理、优化与应用

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友