摘要

本发明公开了一种基于Vision Transformer网络的弱监督实例分割方法、系统及介质,方法为:获取带标签的自然图像数据集和待分割自然图像;构建弱监督实例分割模型;所述弱监督实例分割模型包括ViT多标签分类模块及ViT候选区域评分模块;所述ViT多标签分类模块包括Vision Transformer网络及候选区域伪标签生成器;所述ViT候选区域评分模块包括候选区域生成器及ViT候选区域特征生成器;初始化弱监督实例分割模型,构建损失函数并在带标签的自然图像数据集上进行迭代训练,优化损失函数得到训练好的弱监督实例分割模型;将待分割自然图像输入训练好的弱监督实例分割模型中,得到实例分割结果。本发明实现了对自然图像的实例分割,在保持较高性能的同时,加快推理速度,减少算力的消耗。