摘要

三维人体目标检测在智能安防、机器人、自动驾驶等领域具有重要的应用价值。目前基于雷达与图像数据融合的三维人体目标检测方法主要采用两阶段网络结构,分别完成目标概率较高的候选边界框的选取以及对目标候选框进行分类和边界框回归。目标候选边界框的预先选取使两阶段网络结构的检测准确率和定位精度得到提高,但相对复杂的网络结构导致运算速度受到限制,难以满足实时性要求较高的应用场景。针对以上问题,研究了一种基于改进型RetinaNet的三维人体目标实时检测方法,将主干网络与特征金字塔网络结合用于雷达点云和图像特征的提取,并将两者融合的特征锚框输入到功能网络从而输出三维边界框和目标类别信息。该方法采用单阶段网络结构直接回归目标的类别概率和位置坐标值,并且通过引入聚焦损失函数解决单阶段网络训练过程中存在的正负样本不平衡问题。在KITTI数据集上进行的实验表明,本文方法在三维人体目标检测的平均精度和耗时方面均优于对比算法,可有效实现目标检测的准确性和实时性之间的平衡。