面向信息SNP选择的聚类算法

作者:邢斌; 周从华; 张付全; 张婷; 蒋跃明
来源:计算机与数字工程, 2021, 49(10): 1983-2008.
DOI:10.3969/j.issn.1672-9722.2021.10.007

摘要

SNP数据在人类遗传病诊断与治疗中存在重要作用,但SNP原始数据存在大量冗余,因此需要选择出信息量大的SNP,完成SNP数据的降维。针对常用聚类算法应用到信息SNP选择时未考虑单个SNP与SNP子集之间相似度的问题,采用一种新的相似度度量方法,提出了一种改进的聚类算法K-MIGS,并将其应用到SNP选择中。K-MIGS算法解决了传统K-means不能挖掘出SNP位点与SNP子集之间的强相关性问题,并在医院提供的临床数据实验中表明,K-MIGS具有更高的非信息SNP子集重构度。最后使用支持向量机、决策树和神经网络对构造的SNP子集进行分类实验,对比K-means、特征加权K-means、ReliefF和MCMR,结果表明K-MIGS分类准确率和F1指标上提升了10%和15%,充分说明K-MIGS在信息SNP选择中具有更好的效果。

  • 单位
    无锡市妇幼保健院; 江苏大学; 枣庄市妇幼保健院; 无锡市第五人民医院; 无锡市精神卫生中心

全文