摘要

针对龙芯3A体系结构,该文通过变量代换或消除、简化依赖关系、增加热点数据副本、并行流水等方法对BLAS函数和LAPACK函数做并行化,基于原LAPACK库的结构层次实现了线性方程求解函数的并行化版本,用户只需设定核数重新编译出LAPACK的多核库便可使用.通过LAPACK自带的性能测试程序进行测试,实验结果表明,在四核模式下,大多数函数加速比达到2以上,部分函数加速比超过了3,所有线性方程求解类函数加速比的算术平均值达到2.04.