摘要
针对目前深度学习应用缺少有效的开发与部署工具的问题,提出了一个面向深度学习应用的组件式开发框架。框架根据应用的资源消耗类型进行功能拆分,使用评测引导的资源分配方案进行瓶颈消除,使用分步装箱方案进行兼顾高CPU利用率和低显存开销的功能放置。基于此框架开发的实时车牌号检测应用在吞吐优先模式下GPU利用率达到82%,在延迟优先模式下平均应用延迟达到0.73s,在三种模式下(吞吐优先模式、延迟优先模式以及吞吐/延迟的均衡模式)下,CPU平均利用率达到68.8%。实验结果表明,基于此框架能够进行硬件吞吐与应用延迟的平衡型配置,在吞吐优先模式下高效利用平台的计算资源,在延迟优先模式下满足应用的低延迟需求。相比MediaPipe,使用本框架能够进行超实时的多人姿态估计应用开发,应用的检测帧率最高提升了1077%。实验结果表明,本框架能够作为CPU-GPU异构服务器上面向深度学习应用开发部署的有效解决方案。
- 单位