摘要

针对现有长链非编码RNA(lncRNA)-疾病关联预测模型在综合利用异构生物网络交互、语义信息上仍存在局限性的问题,提出一种基于语义与全局双重注意力机制的lncRNA-疾病关联预测模型(SGALDA)。首先,基于相似性和已知关联构建一个lncRNA-疾病-微小RNA(miRNA)异构网络,并基于消息传递类型设计特征提取模块来提取和融合异构网络上同质、异质节点的邻域特征,以捕捉异构网络上的多层面交互关系。其次,基于元路径将异构网络分解为多个语义子网络,分别在各个子网络上应用图卷积网络(GCN)来提取节点的语义特征,以捕捉异构网络上的高阶交互关系。然后,基于语义和全局双重注意力机制融合节点语义和邻域特征,获得更具代表性的节点特征。最后,使用lncRNA和疾病节点特征的内积重建lncRNA-疾病关联。5折交叉验证结果显示,SGALDA的受试者工作特征曲线下面积(AUROC)为0.9945?0.0002,PR曲线下面积(AUPR)为0.9167?0.0011,在所有对比模型中最高,这证明了其良好的预测性能。对乳腺癌、胃癌的案例研究进一步证实了SGALDA识别潜在lncRNA-疾病关联的能力,说明SGALDA有潜力成为一种可靠的lncRNA-疾病关联预测模型。