摘要

多标签图像分类是计算机视觉中一项具有挑战性的任务,旨在为给定的输入图像预测一组标签。基于语义信息的研究要么利用语义和视觉空间的相关性,指导特征提取过程生成有效的特征表示,要么利用语义和标签空间的相关性,学习能够捕获标签相关性的加权分类器。这些工作大都将语义信息作为开发视觉空间或标签空间的辅助信息,很少有致力于同时开发语义、视觉和标签空间相关性的研究。针对该问题,提出了一种基于语义信息引导的多标签图像分类方法(Semantic Information Guided Multi-Label Image Classification,SIG-MLIC),SIG-MLIC可以同时利用语义、视觉和标签空间,通过语义引导的注意力机制增强标签与图像区域的关联性而生成语义特定的特征表示,同时利用标签的语义信息生成一个具有标签相关性约束的语义字典对视觉特征进行重建,获得归一化的表示系数作为标签出现的概率。在三个标准的多标签图像分类数据集上的实验结果表明,SIG-MLIC中的注意力机制和字典学习可以有效提高分类性能,验证了基于语义信息引导的方法有效性。

全文