摘要

DNA N4-甲基胞嘧啶位点是DNA甲基化的代表类型.之前的实验方法存在耗时且昂贵的特点,因此开发高质量的预测方法是至关重要的.本文提出一种预测方法称之为i4mCGD.首先,利用三核苷酸组成、核苷酸的电子-离子相互作用伪电位和位置特异性三核苷酸倾向,对DNA序列进行编码;其次,融合3种向量,利用互信息对融合后的特征空间进行筛选;最后,将最优特征子集输入到门控循环单元和深度神经网络组成的深度学习框架GRU_D中,利用十折交叉验证方法对模型进行评估. 6个数据集上i4mCGD的预测准确率分别达到92.4%、 91.9%、 88.6%、 93.7%、 95.3%和97.3%.与其他先进方法相比,i4mCGD具有更优异的预测性能,是一种有效的4mC预测方法.