摘要
基因组组装是宏基因组分析的主要挑战之一。通常假设所有测序序列均来源于同一个基因组,微生物中非常活跃的可移动元件给这个前提假设提出了重大质疑。文章将该质疑抽象为可移动元件与宿主染色体之间的二分类问题,准确的二分类性能将进一步促进宏基因组学方面的研究。基于宏基因组测序数据的数值化特征,详细考察特征选择算法Relief F、卡方检验和Fisher判别t检验,并结合分类模型逻辑回归、极限学习机、支持向量机和随机森林,验证最优可移动元件检测模型的性能。实验结果表明,Relief F特征选择算法和随机森林分类算法的融合模型,使用100个特征即可正确分类95%以上的宏基因组测序数据,优于使用全部的690个特征。
-
单位中国科学院大学; 深圳先进技术学院; 中国科学院深圳先进技术研究院