基于FPGA的RNN加速SoC设计与实现

范军; 巩杰; 吴茜凤; 何虎<sup>*</sup>

doi:10.19304/j.cnki.issn1000-7180.2020.11.001

摘要

为提高循环神经网络(RNN)推理速度,分析了循环神经网络(RNN)在CPU的运行时间瓶颈、输入向量稀疏性和参数规模.设计RNN加速器核实现矩阵-稀疏向量乘并行计算,并同时将多个输入向量完整存储于片上SRAM,以复用部分权重从而降低DDR带宽需求.通过Verilog HDL对RNN加速器核进行RTL描述,并搭建仿真环境,将语音识别算法DeepSpeech2的网络参数输入RNN加速器核进行功能仿真.基于FPGA,将MicroBlaze处理器与RNN加速器核搭建SoC,由MicroBlaze实现激活函数、向量逐元素相乘等其它计算.实现了DeepSpeech2中RNN部分推理计算,与只使用MicroBlaze处理器相比,速度提高23倍,能量消耗降低9.4倍.

单位
清华大学

全文

访问全文

收藏分享被引(7) 浏览

更新时间：2024-04-13 14:35

基于FPGA的RNN加速SoC设计与实现

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友