摘要
针对基于点云的三维目标检测中存在的特征提取能力不足和检测头分类与回归不一致问题,提出基于SECOND网络的ResCST架构。该模型在三维稀疏卷积层中引入残差连接,结合SwinTransformer捕捉长距离依赖关系的能力和卷积神经网络获取局部特征的优势,提出CNN-SwinTransformer混合模型,有效提升特征表达能力;提出RCIoU方法,并将其应用于回归和分类分支,实现了分类与回归任务的联合优化。实验结果表明,该模型在自动驾驶数据集KITTI汽车类别检测中,简单、中等和困难难度级别下的三维检测精度分别达到了91.21%、82.97%和80.28%。所提方法对困难目标检测效果提升明显,可达到每秒25帧的推理速度。综合分析,所提出的ResCST 架构在精度与速率之间取得了较好的平衡。
- 单位