摘要

细粒度视觉分类(FGVC)是计算机视觉的一个重要的研究分支,但是由于细粒度分类任务中图片由于变形,遮挡,光照差异等引起的同种类之间差异大和不同种类之间差异小的原因,使得它成为一项十分具有挑战性的任务.本篇论文通过改进MMAL-net(Multi-branch and Multi-scale Attention Learning for Fine-Grained Visual Categorization)算法以细粒度视觉分类的问题.本文的方法使用注意对象定位模块(ALOM)预测对象在图片中的位置,注意力部分建议模块(APPM)以在不需要边框或部分标注的情况下提出信息丰富的部分区域.得到的目标图像不仅包含了目标的几乎整个结构,而且包含了更多的细节,部分图像具有许多不同的尺度和更细粒度的特征,原始图像包含了完整的目标.三类图像由多分支网络进行监督学习.本文引入注意力机制使用Split-Attention模块对不同分支之间的输出进行权重再分配,并且引入SENet(Squeeze-and-Excitation Networks)使模型关注通道特征.本文的模型对不同尺度的图像具有良好的分类能力与鲁棒性,同时可以端到端进行训练并且有较短的推理时间.通过在CUB200-2011、FGVC-Airline和Stanford Cars数据集上的综合实验表明,本文的方法具有超越MMAL-net的分类性能,并且可以与最好的算法进行比较.

全文