摘要

场景图像通常由背景信息和前景目标对象构成,用于场景识别任务的卷积神经网络(CNN)通常需要根据场景中关键目标的特征,甚至结合目标之间的位置关系来识别出场景所属类别。针对场景图像中较小尺寸的关键目标特征随着网络层次加深而逐渐消失从而导致场景识别错误的问题,提出了一种基于多级特征融合与注意力模块的场景识别方法。首先,将深度神经网络ResNet-18的特征提取部分划分出5个分支,然后将5个分支输出的多级特征进行融合,利用融合后的特征进行场景识别和分类,以弥补丢失的目标信息;其次,在网络中加入改进的注意力模块,达到着重学习场景图像中关键目标的目的,以进一步提升识别效果。在多个场景数据集上进行实验对比,结果表明,提出的方法在MIT-67,SUN397和UIUC-Sports,3个场景数据集上的识别准确率分别达到了88.2%,79.9%和97.7%,相对于目前主流的场景识别方法具有更高的识别准确率。