摘要
随着人工智能技术的蓬勃发展,深度神经网络模型被大规模应用到各类移动端与边缘端。边缘端算力低,内存容量小,且实现模型加速需要深入掌握边缘端硬件知识,增加了模型的部署难度,限制了模型的推广应用。基于张量虚拟机(Tensor Virtual Machine, TVM)提出一种深度神经网络加速与部署方法,可实现卷积神经网络模型在FPGA上加速,并在分心驾驶分类应用场景上验证了方法的可行性。通过计算图优化方法减少了模型的访存和计算开销,模型量化方法减小了模型尺寸,计算图打包方法将卷积计算卸载到FPGA上执行加快了模型推理速度。在MPU和MPU+FPGA上的实验结果表明,本文方法可使ResNet50和ResNet18在FPGA上的推理时间分别减少了780%、345%,而推理精度仅下降了0.26、0.16个百分点。
- 单位