摘要

主流的二代测序序列找全比对算法采用种子扩展的方法,由于长种子索引存在空间开销大或检索时间长的问题,这类算法大多使用短种子而导致候选位置过多,增加了比对的时间成本.为此,提出一种基于长种子的找全比对算法,设计了一种空间开销低和检索时间适度的长种子哈希索引,其通过模运算限制哈希空间并使用布隆过滤器识别同一存储位置上的不同种子.长种子显著减少候选位置数量,从而降低验证阶段的时间开销.实验结果表明,在人类基因序列测序数据集上,该算法维持同等精度的同时比现有主流算法时间效率更高.

全文