摘要

目前,大部分现有的用于预测环状RNA(circRNA)与疾病之间关联关系的计算模型通常使用circRNA和疾病相关数据等生物学知识,配合已知的circRNA-疾病关联信息对,挖掘出潜在的关联信息。但这些模型受单一已知关联构成的网络稀疏性、负样本过少等固有问题的影响,导致预测性能表现不佳。因此,在图自动编码器基础上引入归纳式矩阵补全及自注意力机制进行二阶段融合,实现了circRNA-疾病关联预测(GIS-CDA)。GIS-CDA首先计算circRNA和疾病集成相似性,利用图自动编码器学习circRNA和疾病潜在特征,获得低维表征;接着将学习到的特征输入到归纳式矩阵补全,提高节点之间的相似性和依赖性;然后将circRNA特征矩阵和疾病特征矩阵整合为circRNA-疾病特征矩阵,增强预测的稳定性和精确性;最后引入自注意力机制,在特征矩阵中提取重要特征,减少对其他生物信息的依赖。五折交叉和十折交叉验证结果显示:GIS-CDA获得的AUROC值分别为0.9303和0.9393,比现有先进的KATZHCDA、DMFCDA、RWR和SIMCCDA模型的AUROC值分别高出了13.19%、35.73%、13.28%和5.01%;AUPR值分别为0.2271和0.2340,比上述模型的AUPR值分别高出21.72%、22.43%、21.96%和13.86%。此外,在circRNADisease、circ2Disease和circR2Disease三个不同数据库上的消融实验和案例研究也进一步验证了GIS-CDA在预测circRNA-疾病的潜在关联方面具有较好的性能。