摘要

针对现有的深度目标检测算法结构复杂、计算量过大,难以直接部署到资源有限的边缘设备进行实时检测应用的问题,以Yolov5算法为基础,针对VOC公开数据集在GPU上进行迭代训练,通过使用MobileNetv2替换Backbone特征提取层中的BottleneckCSP结构、Conv替换Focus模块达到网络轻量化,并结合稀疏训练评价特征提取层中卷积核的重要性后进行减枝的方法进一步实现模型压缩。从模型适应平台硬件加速角度出发,根据瑞芯微Rk3399pro加速芯片MAC单元为3的倍数,提出将网络卷积通道数剪枝后约束为9的倍数,并引入了非对称8位模型量化、CPU-GPU-NPU多核协同工作的策略在嵌入式平台上进行C++算法部署。实验证明,轻量化的Yolov5算法在检测精确度mAP下降6.74的情况下,大幅减少了计算参数量,离线模型部署至Rk3399pro嵌入式平台上理论检测速度达到50 fps/s,相较原Yolov5s未优化改进的部署至平台上的速度提升近1.7倍;满足降低模型参数权重后仍能实时精确检测的效果。

全文