摘要

视觉大模型(Large Vision Model,LVM)通过在各种大型图像数据集上进行预训练,在图像识别、图像分割等多种下游视觉任务上展现了强大的零样本泛化性能。随着算力的不断提升,大模型的参数规模也在迅速增长,最近的参数规模甚至达到千亿级。随着参数规模的增加,模型性能持续改进,表明模型获取了更多的知识。然而,从头开始训练这样一个庞大的模型,对硬件资源和训练数据提出了巨大需求,几乎没有个人或公司能够负担如此高昂的成本。参数高效微调(Parameter-Efficient Fine-Tuning,PEFT)通过在已有的大型模型基础上,仅微调较小数量的参数,适配特定的下游任务,而无需对所有参数进行调整。PEFT方法极大地降低了计算成本,并且可以达到甚至超越全参数微调的性能,为解决大型视觉模型适配特定任务时所面临的挑战提供了一种可行而高效的策略。

全文