摘要

宏基因组组装往往只能得到较长片段的叠连群,无法恢复完整的基因组。现有的一些分箱方法并未充分挖掘叠连群序列组成和样本覆盖度内部结构信息。开发了基于流形嵌入的宏基因组学叠连群分箱方法,可以挖掘出高维数据中内部的非线性结构特征,从而降低数据的维度,提高计算性能。使用流形嵌入的结果估计出初始分箱数,比使用基于单拷贝基因的分箱数初始化方法更为高效。基于序列组成和样本覆盖度信息,流形嵌入更好地表现出了高维数据嵌入空间的内部结构,为分箱器提供了更有效的特征信息。实验对比了其他方法,结果表明所提方法在SpeciesMock数据集上达到了最高的准确率(ACC)、归一化互信息(NMI)和归一化兰德指数(ARI)。