摘要

在癌症基因组学研究中,临床所得的肿瘤组织是由癌症和正常细胞组成的混合物,肿瘤不纯会对后续的数据分析产生严重影响。基于DNA甲基化的芯片数据,构造了一种简单的肿瘤纯度估计方法 GmmPurify。首先借助公共正常样本,利用高斯混合模型定义了一个重要的统计量"信息贡献值";然后筛选出具有高信息贡献值的DNA甲基化位点,构成差异甲基化位点集合;最后利用核密度方法估计肿瘤的纯度。将GmmPurify方法应用于9类肿瘤,得到的纯度估值与两类先进方法的结果高度一致。研究结果表明,在与肿瘤样本相匹配的正常样本缺失的情况下,借助公共正常样本,GmmPurify可以给出令人满意的肿瘤纯度估计。