摘要

流感病毒血凝素蛋白的快速演变导致新的病毒株不断产生,新的病毒株可能引起季节性流感甚至全球流感大爆发。及时检测出抗原变异体对疫苗的筛选和设计至关重要。鲁棒的抗原性预测模型是应对疫苗挑战的有效方法。各种端到端的特征学习工具为蛋白组学提供了良好的特征表示方法,但是现有的甲型流感预测模型还不能有效地提取并利用血凝素蛋白氨基酸序列中的特征。基于transformer设计一个门控双塔模型,通过输入甲型流感病毒血凝素蛋白的氨基酸序列,利用两个并行的编码器分别从血凝素蛋白氨基酸序列的时间维和空间维上捕捉抗原特征,并学习特征与预测结果间的非线性关系。为了减少数据中的噪声,融合时间维与空间维上的特征时,通过门机制自适应地获取衡量它们相对重要性的权重进行选择性融合,最后使用融合特征预测H1N1流感抗原变异株。在H1N1数据集上的实验结果表明,该模型利用优秀的非线性特征学习能力提高了抗原变异的预测性能,同时具有良好的鲁棒性。