摘要
为将参数量巨大的神经网络模型部署到资源有限、功耗要求极高的嵌入式端,以较好的速度运行,研究8 bit整型量化算法和神经网络前向推理过程在FPGA上的具体实现。通过8 bit整型量化,将模型的参数量从22.5 M缩减至5.7 M,模型参数量缩小近4倍,提高神经网络在嵌入式端部署的可行性。基于FPGA并行处理的特点,设计精简指令,优化卷积运算中输入输出和计算过程的并行处理。在实验中可以在较低功耗下加速神经网络前向推理过程。
-
单位电子工程学院; 天津工业大学