基于机器学习的小鼠基因位点预测方法研究

作者:冯欣; 李英瑞; 王苹; 董哲原; 辛瑞昊*
来源:吉林化工学院学报, 2022, 39(11): 14-19.
DOI:10.16039/j.cnki.cn22-1249.2022.11.003

摘要

DNA N6甲基腺嘌呤(6mA)是DNA中一种重要的甲基化修饰,参与生物学许多调控过程,在生物过程中起着重要的作用.文章用了公开的小鼠数据集进行研究,首先对小鼠的基因序列(A、T、C、G)通过数学表示符进行信息编码,然后采用卡方检验的方法对编码信息进行特征筛选,筛选出6mA位点相关的特征进行下一步的研究,最后用了7种机器学习算法构建分类模型,并采用五折交叉验证(5-Fold Cross-Validation)对预测结果进行验证,结果显示在使用滑动窗口编码方式下选取前20个最优特征作为训练集样本特征,其随机森林模型对于小鼠6mA位点预测准确率可达到1.

  • 单位
    吉林化工学院

全文