面向分布式卷积神经训练网络的FPGA加速器设计

作者:张小军; 王俊英; 王晓静; 韩钦; 王正荣; 张德学*
来源:实验室研究与探索, 2023, 42(09): 100-113.
DOI:10.19927/j.cnki.syyt.2023.09.021

摘要

为提高卷积神经网络(CNN)训练速度,设计一种基于FPGA的分布式CNN加速器。采用数据并行分布式架构,通过多FPGA并行计算提高CNN的训练速度。分析各层数据依赖性,调整矩阵卷积运算顺序,实现层内和层间的细粒度流水线。针对卷积运算消耗过多存储资源,设计一种数据拼接存储结构,有效节省存储资源。为实现多FPGA互联,采用40G光纤传输数据,同时优化Ring-Allreduce传输模式,减少板间数据传递的延迟。针对Mnist数据集,选用16 bit定点量化,不同层间选用不同量化方案,减小梯度下降误差。测试表明,基于Intel Arria 10硬件平台,设计的2 FPGA和3 FPGA架构相对于单FPGA可分别实现1.99、2.98的加速比。

全文