申威26010众核处理器上Winograd卷积算法的研究与优化

武铮; 金旭; 安虹

摘要

卷积作为深度学习中被频繁使用的关键部分，其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展，对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处理器的架构特征以及Winograd卷积算法的计算特性，提出了一种高性能并行卷积算法——融合Winograd卷积算法.该算法不同于依赖官方GEMM（general matrix multiplication）库接口的传统Winograd卷积算法，定制的矩阵乘实现使得该算法的执行过程变得可见，且能够更好地适应于现实中常见卷积运算.整个算法由输入的Winograd变换、卷积核的Winograd变换、核心运算和输出的Winograd逆变换构成，4个部分并不是单独执行而是融合到一起执行.通过实时地为核心运算提供需要的变换后数据，并将计算结果进行及时地逆变换得到最终的输出数据，提高了算法执行过程中的数据局部性，极大地降低了整体的访存开销.同时，为该算法设计了合并的Winograd变换模式、DMA（direct memory access）双缓冲、片上存储的强化使用、输出数据块的弹性处理以及指令重排等优化方案.最终的实验结果表明，在VGG网络模型的总体卷积测试中，该算法性能是传统Winograd卷积算法的7.8倍.同时，抽取典型卷积神经网络模型中的卷积进行测试，融合Winograd卷积算法能够在所有的卷积场景中发挥明显高于传统Winograd卷积算法的性能.其中，最大能够发挥申威26010处理器峰值性能的116.21%，平均能够发挥峰值性能的93.14%.

单位
中国科学技术大学

收藏分享被引浏览

更新时间：2024-01-09 07:33

申威26010众核处理器上Winograd卷积算法的研究与优化

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友