摘要
目前,大规模的深度神经网络广泛应用于计算机视觉等任务。由于FPGA具有性能高、能耗低、可重构等特点,已逐渐成为加速CNN(卷积神经网络)等神经网络不可替代的硬件平台。因此,对CNN在FPGA上的实现方式进行研究,提出了一种能够有效降低带宽限制的存储管理方案,并采用Winograd算法来降低整个网络运算量。此外,针对不同的卷积核设计了不同的运算单元,使得FPGA的性能达到最优。最后,在Virtex7 xc7vx690t上实现了Alexnet,性能为1.31 TFlop/s,且平均性能功耗比为45.7 GOP/s/W。
-
单位中国人民解放军陆军工程大学