摘要

提出了一种充分利用大规模视觉语言预训练模型高效处理少样本图像分类问题的方法。首先,在文本编码部分,集成多个可学习的文本提示,充分挖掘图像类别标签在提示语句中不同位置对模型泛化性能的影响;其次在图像编码部分,加入可学习的视觉提示,使得图像预训练参数可以更好地表征少样本图像;最后,在图像和文本特征编码器后添加特征适配器,并在图像分类数据集上微调网络,进而使网络在少样本图像分类数据集上获得更好的性能。在10个公开数据集上进行大量的实验,结果表明,提出的方法相比于现有方法获得了显著改进,例如,单样本分类的平均准确度提高了2.9%。

全文