目的 针对大规模16S rRNA基因序列聚类问题,对目前一些常见的OTUs划分算法,从不同数据集及多种评价指标方面进行比较研究。方法 在模拟数据集与真实数据集上,对现有12种经典OTUs划分算法进行了定量对比研究,并分析了这些算法的优缺点及使用范围。结果 对于同一个方法,不同数据集对聚类结果有影响。结论 相同的序列相似性阈值下,不同的聚类算法聚类结果差异较大,只有少数方法(如CD-HIT, USEARCH, VSEARCH和DBH)可以处理大数据及长序列数据。