摘要
针对深度学习在高分辨率遥感图像下棕榈树检测方面所面临的准确率不高和检测效率低下的问题,从算法优化和异构硬件平台加速两方面提出一种有效可靠的解决办法。以YOLOv3目标检测算法为例,采用扩大特征选择、加大多尺度特征融合的优化策略,提高了算法对高分辨率的棕榈树的检测准确度。在前向推理过程中,许多应用场景在要求模型高性能的同时往往会有严格的功耗限制。针对这个问题,采用权重整形8位量化和计算核心复用的优化策略,设计了一个基于SIMD的高效卷积计算引擎。此外,对输入模块进行了加速改进,通过对输入图片进行维度变化、向量化处理后,以写队列的方式传送给输入模块,提高了总线带宽的利用率。实验结果表明,经过算法优化后的模型准确率达到了97.84%,在基于Intel Arria10的异构硬件平台上可以获得1.4 TOPS性能,与i9-9980XE CPU相比,性能是它的7.51倍,能效是其33.02倍,与Nvidia推理端专用加速器P40比,能效是其1.2倍。
- 单位