摘要
卷积神经网络(CNN)中大量乘加操作带来了巨大的参数量和计算量,使其在硬件加速中面临严重的访存和功耗问题。提出在4×4处理元阵列上实现同时支持1×1、3×3、5×5卷积核的28×28和32×32图像的并行重构计算方案,减少Inception网络的片上资源占用量。对输入图像进行预处理,提出一种重叠窗口的数据组织方案,将外存加载的像素数减少了30%。实验结果表明,在123MHz的工作频率下,经过预处理的硬件访存开销降至45%,卷积计算的数据复用率达到66.7%,运行功耗为6.395W,每瓦功率为0.176,性能较FPGA版本有明显提升。
-
单位西安邮电大学; 电子工程学院