摘要

通过识别与遗传疾病致病相关的SNP(Single Nucleotide Polymorphism)位点在染色体中的位置,可以帮助人们干预这些致病位点,从而防止遗传性疾病的发生或者进行畜禽的抗病育种。利用K均值聚类算法对每一个位点的数值编码进行聚类并计算其正确率,再利用箱型图识别极端异常值的方法筛选致病SNP位点,最后采用卡方检验对筛选结果的有效性进行验证。结果表明:K均值聚类算法不但准确识别出了遗传疾病的致病SNP位点,而且识别速度远高于目前普遍使用的逻辑斯蒂回归和随机森林算法。因此,该研究基于K均值聚类算法提出了一种识别遗传疾病致病SNP位点的新方法,为实时处理大规模畜禽基因数据集提供了一种新的思路。