摘要

在RGB-D显著性检测视觉任务中,RGB彩色模态和深度模态的信息均被视为十分重要的特征线索。但现有的RGB-D显著性检测模型无法高效执行多尺度特征的交互和多模态特征的融合,因此在真实的开放场景下表现欠佳。针对上述问题,提出了一种基于协同注意力(synergistic attention)机制的RGB-D显著性检测算法模型(SANet),并引入多模态学习中通用的引导与教导策略(guidance and teaching strategy)。在编码器进行多尺度特征提取的阶段中进行隐式引导(implicit guidance),在解码器进行特征融合时进行显式的教导(explicit teaching),实现了编码、解码的分阶段学习。在4个显著性检测评测数据集上进行的综合实验表明,该算法在4个评测指标上均优于已有的18个前沿RGB-D显著性检测模型。

全文