基于多尺度感受野网络和注意力机制的场景识别方法研究

作者:张能欢; 王永滨
来源:中国传媒大学学报(自然科学版), 2020, 27(05): 9-15.
DOI:10.16196/j.cnki.issn.1673-4793.2020.05.002

摘要

场景识别在人机交互、内容检索、智能场景拍照等领域有着越来越强的应用需求。以往的识别方法大多采用多特征融合,比如对象特征、全局布局特征和上下文特征,来得到特征的多样性和互补性,但我们认为由于场景图像的拍摄距离、拍摄视角更具有多样性,导致场景识别相对于其他图像识别任务来说,对感受野的自适应性需求更强。传统的卷积神经网络每一层都是一个固定的感受野,导致感受野的变化不够灵活。在本文中,我们提出了一个多尺度感受野网络来改进网络的感受野,并加入了注意力机制来进一步提取更具有语义区分度的场景特征。最后,我们在三个标准的场景识别数据集上进行了充足的实验,结果表明我们提出的方法是有效的且具有良好的性能。

  • 单位
    中国传媒大学