摘要
单一生物数据网络提供的特征信息是十分受限的,针对这一问题,提出了一种基于半监督自编码器的多网络特征融合方法,丰富特征信息。此外,为解决在人为设置模型的超参数时,易出现模型性能较低、陷入局部最优等问题,进一步提出了利用遗传算法优化支持向量机(GA-SVM算法)模型的方法,提高脑部疾病基因的预测性能。首先构建来自不同数据源的相似性数据网络,然后利用重启随机游走算法从四个数据网络中提取特征,通过半监督自编码器进行处理及融合,最后在十折交叉验证的策略下使用GA-SVM算法模型预测脑部疾病基因,并与其他算法进行比较。实验结果表明,在PD数据集上的AUC和AUPR值分别为0.805, 0.792,而在MDD数据集上的AUC和AUPR值分别为0.825, 0.823,均优于已有的预测模型,有效证明了该方法能够提高脑部疾病基因的预测效果。
- 单位