摘要
本文提出了一种基于现场可编程门阵列(FPGA)的卷积神经网络(CNN)加速器的设计与实现方法,以期在资源和功耗受限的平台中为CNN的计算提供加速.首先,我们采用了数据量化的方式将网络参数从浮点数转化为定点数,从而降低了加速系统所需的硬件开销;其次,提出了一种从FPGA端发起数据访问的系统架构,避免了系统运行中因处理器对FPGA频繁干预而引起性能下降的问题;最后,为CNN的计算设计了高效的数据处理和缓存电路,从电路层面保证了加速器的计算效率.本文以交通标志识别(TSR)为应用场景将上述加速方案进行了板级实现.测试结果显示,识别时间为49ms,其中单个乘法器提供了0.081GOPS的性能,性能功耗比达到了6.81GOPS/W.与近年来相关领域文献对比,可以看出本文提出的方案在资源和功耗受限的情况下可以提供更高的性能.
-
单位专用集成电路与系统国家重点实验室; 复旦大学