摘要
关键蛋白质是有机体生存不可或缺的蛋白质。关键蛋白质的识别有助于理解细胞生命的最低要求、发现致病基因和药物靶点,对疾病的诊治和药物设计等有重要意义。现有方法表明整合蛋白质互作网络和序列的相关特征可以提高对关键蛋白质的识别精度和鲁棒性。文中整合了基因表达谱、蛋白质互作网络和亚细胞位置信息,设计了一种混合神经网络模型IEPHDL。该模型首次使用双向门控循环单元对基因表达谱进行特征学习,使用由多个全连接层组成的深度神经网络对3种数据特征进行深度再学习,充分发挥双向门控循环单元网络、全连接网络、Node2vec在特征学习和表示方面的优势,实现对关键蛋白质的有效识别。实验表明,IEPHDL对关键蛋白质识别的准确率为88.7%,精确率为86.2%,AUC为85.2%,其准确率比当前最优的中心性方法、机器学习方法、深度学习方法依次高出13%,8.9%,3.8%,其他指标也均高于这三者。最后,通过实验分析,证实了双向门控循环单元网络依赖自身强大的特征学习能力,在关键蛋白质识别中起着关键作用。
- 单位