摘要

互联网时代图像及视频数据流量爆发式增长,包含着海量的信息内容,如何高效的管理和利用图像数据获得了越来越多的关注。论文提出一种基于结合自注意力(Transformer)和生成式对抗网络的图像自动标注模型,通过设计的视觉注意力生成器建立图像到标注词汇的映射关系,同时引入生成式对抗训练提高生成器的生成效果。在Corel 5K和IAPRTC-12两个数据集上的实验表明,该方法能够针对不同图像产生自适应数目的标签,且生成结果更具多样性。