摘要

作为一种重要的表观遗传修饰,甲基化在基因表达调控和癌症等复杂疾病的发生发展过程中发挥着至关重要的作用.准确识别DNA/RNA甲基化修饰位点是研究其生物功能的基础.随着高通量测序技术的发展,DNA RNA序列数据与日俱增,机器学习成为识别和预测甲基化位点的重要方法.DNA/RNA序列的特征编码算法能从序列抽取有效信息并编码为富含分类信息的特征,是建立DNA/RNA甲基化修饰位点识别的机器学习模型的基础,也是影响预测模型性能的关键因素.本文从当前DNA/RNA甲基化修饰位点预测模型文献中,系统总结了常用的40种序列特征编码算法.从计算原理的角度,将这些算法分为7类,并利用3个物种(S.cerevisiae,H.sapiens和Mouse)的RNA m~6A和1个物种(A.thaliana)的DNA 4mC修饰基准数据和独立测试数据,对40种算法的性能进行了测试分析.最后,对DNA/RNA序列未来的特征编码算法和生物位点预测模型发展进行了展望.