摘要
针对肿瘤组织的异质性的子克隆解析,提出了一种通过多级子克隆的体细胞突变模式来识别单体型异质性的算法。该算法基于肿瘤组织的多文库测序数据提取文库特征和双末端读段约束,通过对体细胞突变位点的等位基因变异频率进行聚类估算出子克隆数目的一个先验;同时设计了一种拼接识别算法,通过遍历位点对应的读段来拼接单体型序列,拼接出的单体型序列的精度为碱基水平;采用后验概率的最大似然估计解出子克隆的个数、配比及演化关系。仿真实验表明,当基础文库满足一定测序覆盖度时,该算法对单体型异质性的识别精度可达到99%以上,能够取代目前数据分析中常用的两步法,且获得高精确的识别结果。
- 单位