摘要
本发明公开了一种深度学习推理性能干扰感知的GPU资源配置方法,包括一个深度神经网络(Deep Neural Network,DNN)推理性能预测模型、以及利用该模型进行深度学习推理性能干扰感知的GPU资源配置。具体包括提交DNN负载预运行并获取DNN负载参数和GPU硬件参数;基于获取参数设计了一种DNN推理延迟和吞吐量的预测模型;建立在保证DNN推理延迟和吞吐量情况下的DNN推理成本花销最小化的数学优化问题;本发明设计并实现一种简单且有效的深度学习推理性能干扰感知的GPU资源配置策略iGniter,解决DNN推理在GPU上的性能预测问题,在保证DNN推理性能的前提下最小化DNN推理成本花销。
- 单位