摘要

针对嵌入式AI系统中卷积神经网络推理阶段实时性问题,利用软硬件协同设计的思想,在ZYNQ UltraScale+芯片上搭建了基于Deep Learning Processing Unit(DPU)的加速系统,同时为解决DPU调度效率较低的问题,基于优先队列的思想提出了一种适用于DPU的多任务多线程调度策略。在ResNet50,MobileNetV2和DenseBox+MobileNetV2模型上的实验结果表明,加速系统性能与PC机CPU相比提升了141倍,与GPU相比提升了15倍,功耗仅为CPU的6%,GPU的2%。提出的调度策略使DPU调度效率提升了28%,并有效的保证了多任务推理流程的完整性和有序性。