摘要
本文提出了新一代申威众核架构上稀疏通用矩阵-矩阵乘法(SpGEMM)的并行算法swSpGEMM。设计了轻量级并行任务划分有效地应对了矩阵非零元分布引起的负载均衡问题;针对累加过程中的不规则访存和指令流水低效问题,设计了分层稀疏累加器,在不同输入特征下高效利用申威从核层次化内存,且减少了整数查找中的指令间依赖,更有效地发挥硬件的计算能力。SuiteSparse稀疏矩阵测试集中较大规模输入矩阵上,swSpGEMM的性能相比Intel Skylake上的MKL和NVIDIA A100上的cuSPARSE分别加速21.1%和95.3%。
-
单位国家超级计算无锡中心; 清华大学