基于双层卷积神经网络的DNA N4-胞嘧啶甲基化位点预测

作者:陈鹏辉; 徐权峰; 李荣庭; 王煜; 胡梦; 喻文霞; 李慧敏*; 唐轶*
来源:云南民族大学学报(自然科学版), 2022, 31(04): 450-472.

摘要

DNA N4-胞嘧啶甲基化(N4-methylcytosine, 4mC)是一种重要的表观遗传修饰,能在基因表达、细胞修复、DNA复制及保护等方面发挥作用.机器学习算法在预测4mC位点时,一个重要的环节是特征提取,为更充分地提取数据特征,进一步提高4mC位点的预测准确率,提出了一种基于双层卷积神经网络的4mC位点预测模型.首先,将序列数据进行特征编码,搭建具有双卷积层和双池化层的卷积神经网络模型,采用L2范式正则化避免模型过拟合,并采用10折交叉验证保证模型预测的稳定性;其次,对模型参数进行调试,选取预测能力较高的参数组合进行模型训练;最后,将模型的4mC位点预测能力与几种已有算法进行比较.结果表明,双层卷积神经网络模型具有较好的预测性能和鲁棒性,优于基于一般机器学习和单层卷积神经网络的4mC位点预测算法,有效提高了4mC位点的预测能力.