摘要

矩阵相乘作为线性代数的基础运算,不仅在数学领域被大量使用,在应用数学、物理学、计算机科学、人工智能等领域也得到了广泛应用。基于CUDA并行优化的矩阵相乘算法的提出,有效解决了传统CPU低吞吐量,高延时的问题;同时,为了充分利用共享内存资源,还提出了合并内存优化、内存冲突优化以及循环延展(Loop Unrolling)等优化算法来深度挖掘并行算法性能;通过在不同硬件平台上针对不同优化算法做了充分的对比实验分析,实验结果表明基于CUDA并行优化的矩阵相乘算法具有更好的性能。

  • 单位
    江苏联合职业技术学院南京工程分院