摘要

癌症通常由基因变异的累积所驱动,有效地识别癌症的驱动突变是一个巨大的挑战。目前已有方法更多是通过将基因组区域中观察到的突变率与背景突变率(BMR)预期的突变率进行比较或功能影响测试来识别驱动基因,该驱动基因本质上是存在统计异常的基因。而且并未对已有明确分类的癌症的子类之间驱动基因进行研究。本文引入关联规则算法,探寻发生该基因突变诱使病人患该子类低级别脑胶质瘤的有效规则,将突变数据与患癌结果通过算法建立关系,再通过支持度、置信度和提升度这三个指标对产生的规则进行筛选和评估,来预测候选驱动基因以及类间驱动基因差异。最后利用491例低级别脑胶质瘤体细胞突变数据,得到22个与结果存在关联的驱动基因及其所属的子类,敏感性和假阳性结果优于目前已有的单一算法,且22个基因均具有重要的生物学功能。同时建立了基于22个基因的低级别脑胶质瘤子类识别方法,模型总体准确率达98.99%,方法可有效区分三子类。