摘要
本论文针对深度升级网络中的卷积计算的循环特征,分析了当前已有的神经网络加速对于卷积计算的权重做二维并行和三维并行的实现方式,提出了一种新的神经网络加速器(DNNA)设计。本文DNNA合并二维并行和三维并行,并可根据卷积计算的参数特征灵活选择数据流,优化卷积计算的并行效率。本文DNNA对稀疏卷积可以既省略权重零值的计算,还可以均衡MAC算力。本文DNNA通过仿真和FPGA测试验证卷积计算正确性,在Xilinx ZYNQ-7000 FPGA板上,按256个MAC单元+256KByte Buffer实现,约需要27000 LUTs。