摘要
提出了一种大规模图像多样化语义标注方法,以解决传统的图像语义标注结果中存在的语义单一化问题。语义标注多样化要求图像的语义标签不仅要和图像内容相关,也要和图像的其他标签具有语义差别,从多个角度对图像内容进行描述。定义了一个融合相关性和多样性的度量。利用视觉语言模型分别计算标签与图像的相关性和标签之间的视觉距离。基于平均多样化准确率期望的最大化,通过启发式的迭代求解过程得到兼具相关性和多样性的标签集合。网络数据集上的实验结果表明,该方法在相关性保持的基础上,提高了主题覆盖率,涵盖了更广泛的语义概念。
- 单位