摘要
为了降低在边缘计算端部署YOLO网络的功耗和硬件资源消耗,基于现场可编程门阵列(FPGA)提出了一种低功耗Tiny YOLOv3网络加速器。在卷积层IP设计中,采用了通道交错方法加速传统卷积计算,使用16位定点数优化数据位宽,同时利用层分组方法来降低数据传输延迟,通过输入输出通道折叠的方法来降低硬件资源的消耗。在系统实现阶段,通过在Vivado SDK中设置不同拓扑参数对Tiny YOLOv3网络进参数配置。实验结果表明,当工作频率为100 MHz时,与Intel CPU以及ARM CPU相比,分别加速了17倍和289倍。与基于GPU及其他FPGA的YOLO实现相比,该系统可以显著降低硬件资源消耗以及功耗。
-
单位中国科学院; 中国科学院大学