摘要
针对Tiny-yolo网络模型规模大、占内存多、计算量大、不易在嵌入式端实现的问题,提出了网络压缩、结合硬件加速的方法对其进行优化.首先,分析网络连接关系,对网络贡献较小的连接进行裁剪实现网络压缩,裁剪后的权值矩阵采用稀疏化存储方式减少内存占用;其次,对权值进行量化,通过改变数据的位数,在保证精度误差范围内进一步减小内存占用量和计算复杂度;最后,根据Tiny-yolo网络结构特点提出了深度并行-流水的FPGA加速优化方案,最终实现了Tiny-yolo网络运算的硬件加速.通过实验验证,网络裁剪结合量化可以实现36X左右的压缩比率,通过硬件加速优化,相比在最大频率为667 MHz的ARM Cortex-A9上运算实现了7X左右的运算加速.
- 单位