基于BERT与Text-CNN的抗菌肽识别方法

作者:徐小放; 杨春德; 舒坤贤; 袁新普; 李默程; 朱云平*; 陈涛*
来源:生物工程学报, 2023, 39(04): 1815-1824.
DOI:10.13345/j.cjb.220878

摘要

抗菌肽(antimicrobial peptides,AMPs)广泛存在于生命体中,是一种具有广谱抗菌活性、免疫调节功能的小分子多肽。抗菌肽不易产生耐药性,适用范围广,具有极大的临床价值,是传统抗生素的有力竞争者。识别抗菌肽是抗菌肽研究领域中的重要研究方向,湿实验法在进行大规模抗菌肽识别时存在成本高、效率低、周期长等难点,计算机辅助识别法是抗菌肽识别手段的重要补充,如何提升准确率是其中的关键问题。蛋白质序列可以被近似地看作是由氨基酸组成的语言,运用自然语言处理(natural language processing,NLP)技术可能提取到丰富的特征。本文将自然语言处理领域中的预训练模型BERT和微调结构Text-CNN结合,对蛋白质语言进行建模,提供了开源可用的抗菌肽识别工具,并与已发表的5种抗菌肽识别工具进行了比较。结果表明,优化“预训练-微调”策略带来了准确率、敏感度、特异性和马修相关系数的整体提升,为进一步研究抗菌肽识别算法提供了新思路。

全文