摘要

针对实验室场景理解时存在背景复杂、光照多变等问题,利用RGB信息与深度信息在场景理解中具有互补性的特点,提出了一种感知注意力和轻量空间金字塔融合的网络模型(Perception Attention and Lightweight Spatial Fusion Network,PLFNet)。在该模型的感知注意力模块中,利用RGB图像与深度图像在网络中的权重不同,以加权的方式实现深度信息对RGB信息的多级辅助;在轻量空间金字塔池化模块中,通过增加级联的空洞空间卷积,不但有效地聚集了多尺度特征,而且比传统空间金字塔池化模块的参数量减少了约92%,使RGB信息和深度信息的融合更充分。在两个室内场景公开数据集上的实验结果表明,该模型的表现均优于经典算法。消融实验结果表明,本文模型添加感知注意力模块和轻量空间金字塔池化模块后,平均交并比分别提高了4.3%和3.5%。最后,利用场景较复杂的生物实验室数据集进行测试,结果表明本文模型可以有效地实现对生物实验室的场景理解。

全文