摘要

利用计算机技术在海量质谱数据中鉴定蛋白质序列是蛋白质组学研究最基本且重要的任务之一,诱饵序列库构建的好坏是蛋白质鉴定质量控制成功的关键之一。发展了基于注意力机制-双向长短期记忆神经网络(Attention Bi-LSTM)的诱饵序列构建方法,整体研究基于编码-解码框架,采用双向长短期记忆神经网络在解决传统循环神经网络梯度消失问题的同时,可以捕获前向后向更多依赖信息对处理序列数据更加有优势;引入注意力机制提高模型对目标序列库和诱饵序列库相关程度的关注度;并与目前常用的随机和反转算法进行比较。结果显示,基于Attention Bi-LSTM模型构建的诱饵序列库能满足理想诱饵序列库的各项特征要求;在不同大小实验数据集以及谱图、肽段、蛋白3个层面对比分析,显示构建的诱饵序列库与其他方法比具有更好的灵敏性。因此,Attention Bi-LSTM是一种很有潜力的诱饵序列库构建方法。