为了充分挖掘阵列结构的并行性,结合脉动阵列思想针对卷积神经网络核心算法设计了一套高效的映射数据流。在基于RTL搭建的仿真环境中,对不同尺寸的卷积核进行了测试,本文所设计的数据流方案的PE平均利用率达到了86%,相对于CPU可以得到652倍的平均加速比。在足够的片上存储资源条件下,所设计的数据流可使CGRA计算单元得到较高的执行效率。