基于多模态特征频域融合的零样本指称图像分割

作者:林浩然; 刘春黔; 薛榕融; 谢勋伟; 雷印杰*
来源:计算机应用研究, 2023, 1-8.
DOI:10.19734/j.issn.1001-3695.2023.08.0387

摘要

为了解决语义分割在应用到现实世界的下游任务时无法处理未定义类别的问题,提出了指称对象分割任务,这个任务是根据自然语言文本的描述找到图像中对应的目标。现有的方法大多使用一个跨模态解码器来融合从视觉编码器和语言编码器中独立提取的特征,但是这种方法无法有效利用图像的边缘特征且训练复杂。CLIP(contrastive language-image pre-training)是一个强大的预训练视觉语言跨模态模型,能够有效提取图像与文本特征,因此提出一种在频域融合CLIP编码后的多模态特征的方法。首先,使用无监督模型对图像进行粗粒度分割,并提取自然语言文本中的名词用于后续任务。接着利用CLIP的图像编码器与文本编码器分别对图像与文本进行编码。然后使用小波变换分解图像与文本特征,在频域进行分解并融合可以充分利用图像的边缘特征与图像内的位置信息,并在频域分别对图像特征与文本特征进行融合,并将融合后的特征进行反变换。最后将文本特征与图像特征进行逐像素匹配,得到分割结果,并在常用的数据集上进行测试。实验结果证明,网络在无训练零样本的条件下取得了良好的效果,并且具有较好的鲁棒性与泛化能力。

全文