摘要
针对自然条件下油茶果生长条件复杂,存在大量遮挡、重叠的问题,提出了一种基于RGB-D(red green blue-depth)多模态图像的双主干网络模型YOLO-DBM(YOLO-dual backbone model),用来进行油茶果的识别定位。首先,在YOLOv5s模型主干网络CSP-Darknet53的基础上设计了一种轻量化的特征提取网络。其次,使用两个轻量化的特征提取网络分别提取彩色和深度特征,接着使用基于注意力机制的特征融合模块将彩色特征与深度特征进行分级融合,再将融合后的特征层送入特征金字塔网络(feature pyramid network,FPN),最后进行预测。试验结果表明,使用RGB-D图像的YOLO-DBM模型在测试集上的精确率P、召回率R和平均精度AP分别为94.8%、94.6%和98.4%,单幅图像平均检测耗时0.016 s。对比YOLOv3、YOLOv5s和YOLO-IR(YOLO-InceptionRes)模型,平均精度AP分别提升2.9、0.1和0.3个百分点,而模型大小仅为6.21MB,只有YOLOv5s大小的46%。另外,使用注意力融合机制的YOLO-DBM模型与只使用拼接融合的YOLO-DBM相比,精确率P、召回率R和平均精度AP分别提高了0.2、1.6和0.1个百分点,进一步验证该研究所提方法的可靠性与有效性,研究结果可为油茶果自动采收机的研制提供参考。
-
单位南京林业大学; 电子工程学院