摘要
卷积神经网络(CNN)被广泛应用于目标检测等任务场景中。然而,传统的CNN加速器只对单帧图像进行加速处理,没有对视频任务中连续帧之间存在的数据冗余特性进行加速处理。目前利用帧间数据复用的CNN加速器存在稀疏度低、模型规模大以及计算复杂度高的缺点。为解决上述问题,通过可学习步长的低精度量化方法提高差分帧的稀疏度,提出量化因子2的幂次约束实现一个硬件友好的量化方法。使用Winograd算法降低卷积算子的计算复杂度,并在此基础上提出输入通道位图压缩方案,利用激活和权重的稀疏性跳过无效的零值计算。基于YOLOv3-tiny网络,使用ImageNet ILSVRC2015 VID部分数据集和DAC2020数据集,在现场可编程门阵列(FPGA)平台上对所提出的量化方法和稀疏CNN加速器进行验证。实验结果表明,在平均精度均值损失小于2%的条件下,该量化方法实现了4 bit位宽的全整形量化。得益于帧间数据复用,所设计的稀疏加速器实现了814.2×109operation/s的性能和201.1×109operation/s/W的能效比,与其他基于FPGA的同类型加速器相比,所设计的加速器提供了1.77~8.99倍的性能提升以及1.91~5.56倍的能效比提升。
- 单位