自监督学习旨在利用无标签的数据来学习有用的特征。现有的方法是通过让网络对于不同的图像变换具有不变性,也就是最大化由增强视图生成的嵌入向量之间的相似性来实现。然而,当一些下游任务(如细粒度分类)违反该假设时会导致模型的精度下降。本文提出了一种新颖的自监督学习框架,可以通过专注于不同增强视图之间的细微差异来学习适合细粒度分类的特征。实验结果证实,本文所提出的方法对细粒度数据集上的分类有明显的改善,甚至在少样本分类上最多可以达到12%的提升。