摘要

本发明公开了一种基于DNN算子并行的深度学习推理加速方法,包括一个深度神经网络(Deep Neural Network,DNN)算子的流分配器和一个DNN算子发射器。具体而言,利用用户提供的DNN模型和输入张量(即推理数据),流分配器首先依据DNN模型结构确定算子所分配的CUDA流;然后,通过收集模型推理产生的离线性能数据,DNN算子发射器进一步使用基于资源需求和干扰感知的算子调度算法,在GPU上优化算子发射顺序;最后,结合CUDA流分配方案和算子发射顺序生成并行化的CUDA Graph,从而在GPU上实现高效的DNN推理。