摘要
近年来,随着人工智能技术的发展,卷积神经网络(CNN)作为深度学习技术中的常用算法,在计算机视觉、语音识别及自然语言处理等诸多领域得到了广泛的应用。可编程门阵列(FPGA)因其高并行度和高灵活性等优势常被用于CNN的加速。基于此,本文对高性能CNN加速器的设计进行研究。文中采用DSP的级联、卷积核数据的“乒-乓”结构,以及多通道并行、特征图及卷积核数据的复用等方法,以期在资源受限的FPGA平台中为CNN的计算提供高性能加速。实验结果显示,本文的设计方法使用了较少的LUT资源,在Virtex7 VX690T上的峰值运算性能达到1.6TOPs,对VGG16网络加速时吞吐量达到1.334TOPs,具有较高的计算性能和较少的资源消耗。
-
单位中国电子科技集团公司