摘要
本文针对规模日益增长和演变迅速的稀疏卷积神经网络(CNN)应用,提出一款高能效且灵活的加速结构DyCNN来提升其性能和能效。DyCNN基于兼具灵活性和高能效的粗粒度可重构架构(CGRA)设计,可以利用其指令的高并行性来高效支持CNN的操作。DyCNN使用基于数据感知的指令动态过滤机制来滤除各计算单元中由于稀疏CNN中权值静态稀疏性和激活值动态稀疏性产生的大量无效计算和访存指令,使它们能像执行稠密网络一样高效复用一组指令。此外DyCNN利用基于负载感知的动静结合负载调度策略解决了稀疏导致的负载不均衡问题。实验结果表明,DyCNN运行稀疏CNN与运行密集CNN相比实现了平均1.69倍性能提升和3.04倍能效提升,比先进的GPU(cuSPARSE)和Cambricon-X上的解决方案分别实现了2.78倍、1.48倍性能提升和35.62倍、1.17倍能效提升。
- 单位