摘要

近年来迁移学习的范式在计算机视觉领域取得了很大进展。例如基于图像网络数据训练的分类模型可以通过迁移学习的方式应用在例如语义分割、目标检测等任务上,显著提升这些任务的表现。在自动驾驶等天然多任务的应用场景中,传统的迁移学习方案需要为每个下游任务单独微调出一个独一无二的模型副本,因此计算效率和存储效率较差。基于最新的视觉预训练模型(Vision Transformer, ViT)我们提出了一种新的多任务模型方案,具有任务之间共享大部分计算、任务之间低耦合的特点。我们的方案可以节约75%的计算和存储资源,达到传统方案99%的准确率。

  • 单位
    华中光电技术研究所