摘要

在DNA序列中对长度为k的子序列K-mer进行计数是生物信息学分析的关键环节,为解决传统K-mer计数中出现的耗时长、内存占用量大的问题,文中提出一种基于最小完美哈希函数的K-mer计数算法。该算法能够无哈希冲突地将K-mer映射到尽可能最小的整数范围内,对最小完美哈希表的查询在常数时间内完成,能够高效处理动态变化的大规模数据集。在处理大肠杆菌基因序列时,本文算法MPH-KMC相对jellyfish2算法,耗时缩短3倍,内存消耗缩小11倍。