摘要
DNA N6甲基腺嘌呤(6mA)是DNA中一种重要的甲基化修饰,参与生物学许多调控过程,在生物过程中起着重要的作用.文章用了公开的小鼠数据集进行研究,首先对小鼠的基因序列(A、T、C、G)通过数学表示符进行信息编码,然后采用卡方检验的方法对编码信息进行特征筛选,筛选出6mA位点相关的特征进行下一步的研究,最后用了7种机器学习算法构建分类模型,并采用五折交叉验证(5-Fold Cross-Validation)对预测结果进行验证,结果显示在使用滑动窗口编码方式下选取前20个最优特征作为训练集样本特征,其随机森林模型对于小鼠6mA位点预测准确率可达到1.
-
单位吉林化工学院