摘要
拷贝数变异是人类基因组中一种重要的结构变异类型。不同样本中相同区域出现的拷贝数变异称作复发拷贝数变异。研究表明,复发拷贝数变异与人类复杂疾病紧密关联。提出一种基于聚类思想的多样本复发拷贝数变异的检测算法,该算法首先提取两种与复发拷贝数变异密切相关的特征:即多样本中每个位点的拷贝数变异比率和拷贝数变异幅度均值,然后利用聚类算法在这两种特征上进行聚类,根据聚类结果找出发生复发拷贝数变异的位点。通过两种模拟数据来评估该算法的性能,同时与三种同行方法进行比较,结果表明该算法具有较好的检测性能;本文还将该算法应用至两种真实数据,检测结果中包含一定数量的疾病相关基因,这表明本文所提算法的有效性。
- 单位