摘要

在全基因组关联分析中,群体分层导致基因定位产生很高的假阳率。通常采用亲缘矩阵的前几个主成分来矫正群体分层。当群体结构比较复杂时,需要前多个主成分才能有效地控制假阳错误。与正态分布的数量性状用剩余误差作为矫正的表型不同,由于间断性状自变量和因变量间的尺度不同,无法简单估计疾病表型的剩余误差。虽然1.9版本的PLINK常常作为一种高效而稳定的软件分析间断性状数据,但需要同时考虑上百个协变量时计算速度会大大下降。在此基础上,我们用主成分矫正间断性状回归中的群体分层以提高QTN的检测力,为了快速计算成百上千个协变量的广义线性回归模型,提出了一种合并协变量的广义线性模型主成分回归法,首先利用广义线性模型求解每一个主成分的各自的回归系数,然后将众多协变量和各自的回归系数对应乘积并加和合并为一个新的协变量,最后利用PLINK软件做这个协变量的广义线性模型回归分析或者将广义线性模型求解中的隐含因变量减去这个协变量作为新的隐含因变量再逐个SNP进行回归分析。采用计算机模拟实验和一系列公布的GWAS数据集,系统地论证该方法的高效性、可靠性和适应性,在实验中的结果表明:这两种拓展算法在极大减少计算耗时的同时还保留PLINK软件对计算机内存需求低的优势。