基于FPGA的多核可扩展卷积加速器设计

作者:张坤宁; 赵烁; 孙庆斌; 邓宁; 何虎*
来源:计算机工程与设计, 2021, 42(06): 1592-1598.
DOI:10.16208/j.issn1000-7024.2021.06.012

摘要

为解决卷积神经网络计算效率和能效较低的问题,提出并设计一种使用定点数据作为输入的卷积加速器。加速器支持动态量化的8bits定点数据的卷积计算,通过采用分块计算的策略和改进的循环计算顺序,有效提高计算效率;支持激活、批标准化(BN)、池化和全连接等计算;基于软硬件协同设计的思路,设计包含卷积加速器和ARM处理器在内的SoC系统。提出一种将加速器进行多核扩展的方法,提高算力和移植便捷性。将加速器部署在Xilinx ZCU102开发板上,其中单核加速器的算力达到了153.6GOP/s,在计算核数目增加到4个和8个的情况下,算力分别增至614.4GOP/s和1024GOP/s。

全文