摘要
单核苷酸多态性(single nucleotide polymorphism,SNP)是法医遗传学个体识别和族群推断常用的遗传标记.本研究集合文献和公共库中祖先信息SNP位点(ancestry informative SNPs,AISNPs),应用softmax回归、支持向量机和随机森林3种算法,研究东亚北方的3个主体人群(中国北方汉族人、日本人和韩国人)的族群推断效果.我们分析了来自千人基因组计划的103份中国北方汉族人样本、104份日本人样本和亚洲多样性计划的100份韩国人样本的428个AISNP位点分型,采用多元线性回归共线性诊断筛选出67个高信息量的AISNPs位点组合,构建了softmax回归和支持向量机算法的两种族群推断模型,采用随机森林平均降准分析筛选出42个高信息量的AISNPs位点组合,并构建了随机森林算法的族群推断模型,将softmax回归、支持向量机与随机森林3种模型用于北方汉族人、日本人、韩国人的族群推断,五次十折交叉验证(training∶testing=9∶1)测试3种模型的平均准确率分别为95.19%、95.77%、94.53%.本研究建立的3种族群推断模型均可用于东亚北方三大人群的遗传推断,42 AISNPs组合的位点数目较少,更适于构建法医检测体系,具有较高的实际应用价值.
- 单位