摘要
复杂的深度学习网络在嵌入式平台上的推理速度较低,很难满足实际应用需求.因此针对自动驾驶、智能机器人等实时性应用背景,提出了一个轻量级图像语义分割网络,并利用NVIDIA的推理加速器TensorRT进行合并层、精度校准、并行优化等操作,提高模型的计算效率,在嵌入式平台上实现了对深度学习模型的推理加速.实验结果表明,提出的模型在Cityscapes数据集上取得了72. 17%的m Io U,对于尺寸为512×1024的输入图像,经过TensorRT的推理加速后,在嵌入式平台NVIDIA Jetson Xavier上达到了45 FPS的推理速度,该速度约为原模型的1. 8倍.提出的模型和优化方法在保留较高准确度的前提下,实现了嵌入式平台上的实时图像语义分割,为深度学习模型在嵌入式平台上的实时性应用提供了支持.
- 单位