摘要

神经网络在嵌入式端的应用日益广泛,为满足嵌入式端低功耗,低延迟等特点,通常的解决方案是针对长短记忆序列LSTM模型(Long-Short Term Memory)进行压缩,并定制专用的硬件加速器.当LSTM模型经过剪枝等压缩操作后,其网络模型将变得稀疏且不规则,会给PE(Process Element)运算单元带来负载不均衡的问题.通过排序的方法,将权重矩阵按一定的规则重新分发给各个PE单元,并在此基础上针对稀疏化的模型定制专用的硬件单元.在赛灵思zynq系列XCZU9EG-2FFVB1156E开发板上进行实验,实验结果显示,当PE单元多消耗0.314%硬件资源的情况下,其运算速度取得了2%的提升.