摘要
针对现有的第Ⅰ类HLA(HLA-Ⅰ)分子与多肽结合亲和力预测算法在特征构造时依赖传统序列评分函数的问题,为突破用经典机器学习算法构造氨基酸序列特征的局限性,提出一种基于蛋白质预训练模型ProtBert的HLA-Ⅰ与多肽的结合预测算法ProHLAⅠ.该算法利用生命体语言与文本语言在组成上的共性,将氨基酸序列类比句子,通过整合ProtBert预训练模型、 BiLSTM编码和注意力机制的网络结构优势,对HLA-Ⅰ序列和多肽序列进行特征提取,从而实现HLA-Ⅰ独立于位点的多肽结合预测.实验结果表明,该模型在两组独立测试集中均取得了最优性能.
- 单位