摘要

化合物-蛋白质相互作用(CPI)的研究对药物发现有着重要作用,它可以为药物靶标选择提供有价值的信息,在一定程度上提高先导化合物的命中率,进而加快药物发现的进程。由此提出了一种基于改进Attention Mask编解码器的化合物与蛋白质相互作用分类的预测模型,分别使用RDkit和Item2vec处理化合物的SMILES字符串和蛋白质的氨基酸序列,将得到的化合物和蛋白质低维特征表示的向量输入到该模型,通过分配权重的方式来计算蛋白质中的哪个子序列对化合物分子更重要,使用带有Attention机制的神经网络计算权重,模拟化合物和蛋白质之间的相互作用关系,最后作为一个二分类问题输出化合物和蛋白质是否相互作用的预测概率。模型性能测评采用ROC曲线下面积、准确召回率曲线作为评价指标,实验结果表明,该模型相比于GraphDTA和GCN模型而言,拥有更好的性能表现,AUC值提高了0.04左右,PRC值提高了0.07左右。