摘要

随着边缘设备数据的增多和神经网络的不断落地应用,边缘计算为以云计算为核心的大数据技术分担了压力。现场可编程门阵列(FPGA)因灵活的体系结构和低功耗,在边缘计算以及构建神经网络加速器中显示出优异的特性。但是,传统的基于传统卷积算法的FPGA解决方案往往受到片上计算单元数量的限制。使用Zynq作为硬件加速平台,对参数进行定点量化,利用数组分区提高流水线运行速度。采用Winograd快速卷积算法对传统的卷积进行改进,将卷积运算中的乘法运算转换为加法运算,降低了模型的计算复杂度,极大提高了所设计的加速器的计算性能。实验表明,XC7Z035工作在150MHz时钟下获得了43.5GOP/s的性能,能效是Xeon(R)Silver 4214R的129倍,是双核ARM的159倍。所提方案在资源和功耗受限的情况下可以提供较高的性能,适用于网络边缘端对轻量级神经网络的落地应用。