摘要

为了解决人类遗传性疾病和性状与基因组上位点间的关联性问题,通过全基因组关联分析,提出一种融合模型,建立了单核苷酸多态性(Single Nucleotide Polymorphisms,SNP)与疾病的关联分析。首先,将16维数据做降维处理;以位点集与类标间的卡方统计量作为评价函数建立基于二阶段蚁群算法的SNP关联分析模型;选取与致病位点相似度最大的位点,构成新的位点集合,建立二元逻辑回归模型,分析遗传疾病与新的位点集合的关联性;并使用随机森林算法验证该模型的准确率。数据测试验证表明了此融合模型的识别率达到85.8%,该模型比传统方法的识别能力有明显增强,可以有效地进行遗传疾病、基因和位点多层次...