摘要
卷积神经网络(CNN)计算量大主要在于卷积运算复杂,因而难以在边缘端计算设备中应用。对此提出了一种基于ZYNQ平台的硬件通用卷积加速器设计方案,该加速器对所有卷积神经网络的卷积层适用,为目标检测领域的产品应用拓宽了市场前景。选用YOLOv3-Tiny网络进行分析,采用定点量化方法,损失较小精度获得8倍速度性能提升。针对硬件级加速器设计,用软核CPU代替硬核CPU,进一步提高资源利用率;根据卷积计算特点,优化了乘加运算及缓存机制,并采用流水线及并行处理等操作进行硬件加速。实验结果表明,该方案模型均值平均精度69%,硬件级实现了210 fps的前向推理速度,整体系统功耗控制在5 W以内。
- 单位