摘要
细粒度图像检索旨在从大类图像中检索出特定子类的图像。得益于卷积神经网络的快速发展,细粒度图像检索的精度和速度均取得突破,但其性能仍受限于不同子类图像间高相似性和同一子类图像间的高差异性。针对上述问题,该文提出了一种基于对比学习和视觉一致性增强的细粒度图像检索框架CVCS-Net。CVCS-Net由判别性特征挖掘模块、视觉一致性增强模块和语义哈希编码模块组成,在挖掘类间图像判别性特征的同时,通过增强类内图像的视觉一致性来提升模型对类内图像差异的容忍度。判别性特征挖掘模块学习空间注意力图来定位图像的判别性区域并获得这些区域对应的局部特征表示;视觉一致性增强模块提升模型对类内图像差异的鲁棒性;而语义哈希编码模块基于量化损失和位平衡损失进一步学习紧凑的哈希码用于检索。CVCS-Net在CUB200-2011、Stanford Dogs和Stanford Cars的mAP分别可达到0.859 1、0.856 4和0.918 3,相较于当前其他检索方法能够取得更好的检索结果。
- 单位