摘要

全基因组关联分析(GWAS),是通过考察全基因组范围DNA变异的单核苷酸多态性(SNP),挖掘影响复杂疾病等的表型性状(如疾病、癌症、身高等)的SNP的计算方法,以期为疾病/表型的分子生物发现、生物机理分析、分子靶向药物研究、疾病早期风险预测和个性化治疗等提供科学依据.目前的方法多以统计学、机器学习和深度学习、智能优化等等及其它们的组合为基础,并已取得可喜成绩,但仍有许多无法复现的关联的例子,正如Ioannidis 2005年在国际知名刊物PLoS Medicine上发表、至今已被引用6 600多次的论文中所说"大部分的研究发现是错的".文章认为,这是因为其核心问题仍未解决,尤其是到底要从数据中挖掘出什么和统计重要性在什么情况下具有科学重要性,以及科学重要性是否可以科学定义等,这些都是GWAS对数据科学的严峻挑战.