摘要
乳腺癌是最常见的癌症之一,基于患者的基因组学数据进行预后五年生存预测是乳腺癌研究中的常见任务。针对乳腺癌患者基因组学数据中存在的嘈杂性、异质性、序列长以及正负样本不平衡等问题,提出基于多模态学习的乳腺癌预后五年生存预测模型(MLBSP)。利用单模态模块提取基因表达数据、基因突变累积数、单核核苷酸变异以及基因拷贝数变异数四种模态数据的有效信息。在此基础上,为了减少单一模态数据异质性对全局特征造成的影响,将深度可分离卷积和多头自注意力机制作为多模态模块架构对数据进行特征融合,捕获患者多模态基因组数据的全局信息,并使用Focal Loss解决正负样本不平衡的问题,以此指导预后五年生存预测。实验结果表明,MLBSP模型在乳腺癌患者真实数据集BRCA Cell、METABRIC、PanCancer Altas上的AUC分别达到91.18%、71.49%、77.37%,与XGBoost、随机森林等主流癌症生存预测方法相比,平均提升了17.69%、6.51%、10.24%。此外,通过通路分析发现了一些生物标志物 SLC8A3、TP 53等,进一步证明了多模态研究的新颖性和有效性。
- 单位