摘要
近年来,基于机器学习的microRNA与复杂疾病之间的关系预测受到广泛关注。然而现存的方法大多是围绕microRNA表达谱,相似性网络,序列特征等角度开发的,忽略了转录调控信息的重要性。基于此提出了一种新的基于microRNA上下游转录调控特征数据的机器学习算法(RPDZ)去预测癌症相关microRNA的重要性。此方法首先通过手动搜索和批量处理高通量数据,计算和整合microRNA上下游的特征数据,然后利用随机森林进行有效的特征提取,最后利用深度神经网络更好地捕捉疾病与microRNA的关系,更好地预测microRNA的重要性得分。使用ROC曲线下方的面积(AUC)、F-measure值和准确度(ACC)作为评估预测性能的指标。通过五折交叉验证的实验表明所提出的算法(ACC:0.8748,AUC:0.93,F-measure:0.8701)相比其他三种对比方法PESM、SVM、GaussianNB可得到更好的分类识别效果。算法不仅可以有效地整合多组学特征数据识别关键的miRNA,还可以为精确和自动化的计算机辅助诊断奠定基础。
- 单位