摘要

场景识别是计算机视觉的一个重要研究内容,主要是识别图像或视频中的场景类别。场景识别在自动驾驶,机器人和虚拟现实等领域有着广泛的应用,因此成为目前的研究热点。随着互联网技术的普及,获取场景图像数据越来越容易,但人们只关心图像的语义内容,因此急需场景识别等技术提供图像的语义内容。场景识别算法大致可以分为两种:传统的场景识别算法和基于深度学习的场景识别算法。传统的场景识别采用基于图像底层的特征,已经出现瓶颈。深度学习方法从海量数据中学习,不需要人为干涉,且学习到的特征具有语义信息。目前,场景识别技术已经比较成熟,但还存在很多难点有待解决。其中,对识别结果影响最大的是场景图像的类内差异性和类间相似性。基于深度学习的场景识别算法在选取特征时只考虑了高层的语义特征,没有使用低层的细节特征,导致提取的特征鲁棒性不强,影响识别结果。针对以上难点和问题,本文在深入研究国内外相关场景识别算法后,提出了两种基于深度学习的识别算法用于解决以上问题:(1)针对场景的类内差异性和类间相似性问题,本文提出了一种基于弱监督注意力图的方法用于寻找场景图像的判别性区域,即类别的代表性区域和类间的差异性区域。受深度学习可解释性的工作启发,首先利用卷积神经网络和弱监督信息为场景图像产生注意力图;接着再利用注意力图的信息为场景图像产生判别性区域;然后提取判别性区域的特征,这样可以有效减少背景和类间相似性区域的干扰;最后进行特征编码,融合全局特征,得到图像表征。在MIT indoor 67、Scene 15和UIUC Sports场景图像数据集上进行实验,本文算法都取得了不错的效果。(2)针对提取特征的鲁棒性不强的问题,本文融合多层卷积特征为场景图像得到更加鲁棒的特征。首先利用区域生成算法为场景图像产生可能包含物体的区域,这样可以避免背景的干扰;接着将每个候选区域相应的特征图进行自适应池化,得到相同长度的特征向量;然后为每层的特征向量进行编码;最后进行特征融合,并且结合全局特征,形成图像最终的表征。在MIT indoor 67、Scene 15和UIUC Sports三个基准数据集上的实验表明,本文方法取得了不错的识别效果,分别获得88.05%、95.03%和98.20%的准确率。本文方法识别准确率很高的原因,主要归功于融合了高层的语义特征和低层的细节特征。

全文