摘要

卷积神经网络在运算过程中存在计算量过大、存储资源消耗高等问题,使其难以在嵌入式设备上进行部署。针对此问题,提出一种在多核异构平台ZYNQ7020上对目标检测网络YOLO-FASTEST前向推理的方案。首先设计了一种输出特征复用的运算模式,提高了片上多层流水的运算效率。然后采用双缓存乒乓传输的方式,使得数据传输时间掩盖计算时间。为了降低硬件资源开销,将网络模型的精度由浮点数量化为16位的定点数,将批量归一化层与卷积层进一步融合。最后对加速器的资源消耗与各模块的设计参数进行建模分析。实验结果表明,该方案在ZYNQ7020平台上获得了13.5 GFLOPS的计算性能,功耗仅为2.56 W。同时能耗比是ARM-A9 CPU的48倍、GTX1050ti GPU的20倍。