摘要

长非编码RNA(lncRNAs)参与多种重要的生物学过程并与各种人类疾病密切相关,因此,LncRNA-疾病关联预测研究有助于疾病的诊断、治疗、并在分子水平理解人类疾病分子机制。目前,大多数lncRNA-疾病关联预测方法一般倾向于浅层整合lncRNA和疾病的相关信息,忽略网络拓扑结构中的深层嵌入特征;另外通过随机选取LncRNA-疾病非关联对构建负样本训练集合,影响预测方法的鲁棒性。鉴于此,我们提出一种基于网络嵌入的NELDA方法,预测潜在的lncRNA-疾病关联关系。NELDA首先利用lncRNA表达谱、疾病本体论和已知的lncRNA-疾病关联关系,构建lncRNA相似性网络、疾病相似性网络、和lncRNA-疾病关联网络;然后,通过设计4个深度自编码器分别从lncRNA/疾病的相似性网络、lncRNA-疾病关联网络学习lncRNA和疾病的低维网络嵌入特征;串联lncRNA和疾病的相似性网络嵌入特征、及lncRNA和疾病的关联网络嵌入特征,分别输入二个支持向量机分类器预测lncRNA-疾病关联;最后,采用加权融合策略融合二个支持向量机分类器的预测结果,给出lncRNA-疾病关联关系的最终预测结果。另外,我们根据已知的LncRNA-疾病关联对和疾病语义相似性,设计一种负样本选取策略构建可信度相对较高的lncRNA-疾病非关联对样本集,用以改善分类器的鲁棒性,该策略通过设计一种打分函数为每对LncRNA-疾病进行打分,选取得分较低的LncRNA-疾病对作为lncRNA-疾病非关联对样本(即负样本)。十折交叉验证实验结果表明:NELDA能够有效预测lncRNA-疾病关联关系,其AUC达到0.9827,比现有LDASR和LDNFSGB方法分别提高了0.0627和0.0207;另外,负样本选取策略与决策级加权融合策略能够有效改善NELDA预测性能。胃癌和乳腺癌案例研究中,29/40(72.5%)预测的与胃癌和乳腺癌关联的lncRNAs,在近期文献和公共数据库中能够发现相关的支撑证据。这些实验结果表明,NELDA是一种有效的lncRNA-疾病关联关系预测方法,具有挖掘潜在lncRNA-疾病关联关系的能力。