摘要
针对基于Transformer框架的图像标注任务中提取视觉特征容易引入噪声问题且为了进一步提高视觉的上下文信息,提出了一种基于综合几何关系稀疏自注意力机制的图像标注方法。首先通过结合图像区域的绝对位置、相对位置和空间包含关系提取详细全面的视觉表示,获取图像中潜在的上下文信息;其次提出了注意力层权重矩阵的稀疏化方法,该方法解决了Transformer忽略图像区域的局部性并引入噪声信息的问题;最后,采用了强化学习方法作为指导策略,实现模型在句子级别优化目标序列。通过在MS-COCO数据集上进行的对比实验结果表明,提出的方法在BLEU1、BLEU4、METEOR、ROUGE-L、CIDEr和SPICE指标上分别比基线模型提升了0.2、0.7、0.1、0.3、1.2和0.4,有效提升了图像自动标注的性能。
- 单位