摘要
RGB-D显著性目标检测是计算机视觉领域的研究任务之一,很多模型在简单场景下取得了较好的检测效果,却无法有效地处理多目标、深度图质量低下以及显著性目标色彩与背景相似等复杂场景。因此,本文提出一种三分支多层次Transformer特征交互的RGB-D显著性目标检测模型。首先,本文提出一个跨模态坐标注意力模块,该模块通过采用坐标注意力抑制RGB和深度图的噪声信息,从而提取出更为显著的特征信息用于后续解码。其次,通过特征融合模块将高层的三层特征图调整到相同的分辨率送入Transformer层,能够有效地获取远距离显著性目标之间的关联关系和整幅图像的全局信息。然后,本文提出一个多层次特征交互模块,该模块有效地聚合多层次信息进行特征交互,从而能够更精准地定位显著性目标的位置,同时对显著性目标的边界进行细化。最后,本文设计一个密集扩张特征细化模块,利用密集扩张卷积获取丰富的多尺度特征,有效地应对显著性目标数量和尺寸变化。通过在5个公开的基准数据集与19种主流模型相比,实验结果表明:本文方法在多个测评指标上有较好的提升效果,提高了在特定复杂场景下的检测精度,从P-R曲线、F-measure曲线和显著图也可以直观看出本文方法实现了较好的检测结果,生成的显著图更完整、更清晰,相比其他模型更加接近真值图。
- 单位