摘要
目前,围绕宏基因组的模拟读长(reads)或片段、全基因组等不同类型的输入数据,新的基因预测算法、软件与工具层出不穷,但存在三方面的问题:一、基于模拟reads或片段得出的结果无法准确反映真实基因的预测效果,而基于全基因组得出的结果不能实现未知物种的预测;二、模拟reads或片段大多小于真实基因的总长度,软件很难预测出完整的基因,甚至丢失部分真实基因;三、长片段基因预测的基准衡量研究较少,大大限制了基因预测在不同领域的应用。针对以上问题,提出基于真实数据长片段基因预测的基准衡量方法。首先,对两个包含20种细菌株的真实序列数据集进行过滤及组装处理;其次,利用组装后得到的长片段支架(scaffolds)作为输入,对6种软件进行基准性能评估;最后,基于评估结果进行错误率上限分析。实验结果表明,在覆盖度较高的数据集上,Prodigal、GeneMarkS-2、MetaGeneAnnotator和FragGeneScan这4种软件错误率接近且最低,在3.5%~22.8%变化;在低覆盖度的数据集上,GeneMarkS-2错误率最低,在27.1%~54.7%变化。
-
单位中国科学院计算机网络信息中心; 中国互联网络信息中心; 中国科学院大学