目标检测网络算法具有更高的检测精度,但庞大的计算复杂度使得传统硬件难以满足实时计算需求。为此,一种面向低延时目标检测的FPGA神经网络加速器被设计研究。该加速器能够支持高并行卷积稀疏计算,进而优化计算延时;同时设计了集中式存储阵列结构,能够实现存储阵列和计算阵列非一一对应的数据交互。基于Xilinx VCU118开发板和YOLOv3深度神经网络的测试结果显示,加速器单帧延时只有24.36 ms,并具有2704 GOPS的吞吐性能和更高的面积效率。