摘要
在场景识别任务中,存在异类场景包含高相似度的物品种类或同类场景空间布局差异过大情况,即场景的类间相似性与类内差异性,这对场景识别研究提出了挑战。现有方法通过增强数据集或利用多层次的信息互补提高分类器的判别能力,尽管取得了一定程度的提升但仍存在局限性。文中提出了关键区域特征提取以及二阶段分类网络方法进一步克服场景的类间相似性与类内差异性。关键区域提取通过保留图像中的关键信息区域从而避免类内差异性对场景识别的影响,而二阶段分类网络通过粗-细两个阶段的训练避免类间相似性对场景识别的影响。文中方法结合ViT(Vision Transformer)等基线网络在经典场景识别数据集Scene15、MITindoor67和SUN397上分别达到了96.9%、88.4%以及76.0%的分类精度。此外,文中方法在最大规模的场景识别数据集Places365上取得了60.5%的最高分类精度。
- 单位