摘要
设计了一种基于FPGA的目标检测算法的硬件加速器,采用循环分块和循环展开的方式来优化卷积池化循环,可以以任意并行度进行卷积和池化计算。使用一种基于AXI总线的数据重排序方式,在不带来额外硬件资源开销的情况下,对特征图进行重排序,可以降低数据传输时间。将该硬件加速器部署至Xilinx ZCU 102开发板进行验证,结果表明SSD算法前向推理性能为534.72 GOPS,推理时间为113.81 ms。
-
单位北京大学; 北京航天自动控制研究所