摘要

随着二代测序技术的快速发展,基因测序成本迅速下降,这导致基因数据的爆炸式增长,基因数据分析工具逐渐无法满足如此大规模的数据分析需求.一方面,基因数据分析工具大多仍为串行执行,无法有效地利用多核结构提升性能并导致计算资源的严重浪费;另一方面,由于前期设计和开发的局限性,分析工具所依赖的底层算法库不能兼顾高性能与友好的用户接口.Gene Panel是当前主流的面向癌症检测的基因数据分析流程,它也是由多种基因数据分析工具组成的.该文面向Gene Panel流程:(1)设计并实现了一套全新的并行Gene Panel基因数据分析流程,通过数据并行和任务并行两种主要并行手段并结合负载均衡等其他优化方法,有效地提升了多核平台的资源利用率,并获得了4~7倍的整体加速比;(2)设计并实现了一种接口友好的高性能基因数据分析底层库HCC.由于相似的算法特征,该文的优化方法同样适用于除Gene Panel外的其他测序流程.