摘要
目的 比较四种常用的全基因组关联分析(GWAS)方法在蒙特卡洛模拟数据中的统计性能,以及在BMI真实数据应用中的差异,为GWAS方法的合理选用提供参考。方法 基于UK BioBank数据库选取基因型,采用蒙特卡洛模拟不同数量性状核苷酸位点(QTN)和遗传率的表型,分别运用BOLT-LMM、FarmCPU、fastGWA和GLM四种方法对模拟数据进行GWAS,评价四种方法的检验功效、假阳率和运算时间。并将四种方法应用于BMI真实数据分析,对不同方法鉴定出的关联基因进行比较。结果 蒙特卡洛模拟分析显示,BOLT-LMM和FarmCPU检验功效最高(以QTN数目为1 250,遗传率为0.8为例),其检验功效对假阳率曲线下面积(AUC)分别为0.504 1和0.458 4,其次是fastGWA(AUC=0.377 0),GLM最低(AUC=0.375 5)。运算速度最快的是GLM(7.47小时),fastGWA略慢(约11小时),FarmCPU和BOLT-LMM所需时间分别是GLM的19.5倍和71.3倍。BMI实例分析显示,fastGWA效果最佳,鉴定出54个已报道关联基因,BOLT-LMM、FarmCPU和GLM鉴定出关联基因的数目分别为35、35和34个。结论 在分析大型人群队列GWAS数据时,可先选择GLM快速获得初步结果,进一步采用fastGWA、FarmCPU或BOLT-LMM可能会鉴定出更多的关联基因,实际应用时可综合四种方法结果以发现新的关联基因。
-
单位南通大学; 公共卫生学院