基于FPGA的卷积神经网络并行加速设计

龚豪杰; 周海; 冯水春

doi:10.16208/j.issn1000-7024.2022.07.010

摘要

为提升在资源、功耗受限的嵌入式平台上运行的深度卷积网络算法的速度和能效,提出一种基于现场可编程门阵列(FPGA)的卷积并行加速方案。利用卷积层与批归一化(batch normalization,BN)层融合减少计算复杂度;利用数据分片减少片上存储消耗;利用数据复用、并行计算提升运算速度,减少系统硬件开销;利用设计空间探索找到最符合硬件资源约束的计算并行度。实验结果表明,在100MHz的工作频率下,加速器的峰值计算性能可以达到52.56GFLOPS,性能是CPU的4.1倍,能耗仅为GPU的9.9%,与其它FPGA方案相比综合性能有一定的提升。

单位
中国科学院国家空间科学中心; 中国科学院大学

全文

访问全文

收藏分享被引浏览

更新时间：2025-03-27 18:55

基于FPGA的卷积神经网络并行加速设计

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友