基于Transformer的细粒度图像中文描述

作者:肖雄; 徐伟峰*; 王洪涛; 苏攀; 高思华
来源:吉林大学学报(理学版), 2022, 60(05): 1103-1112.
DOI:10.13413/j.cnki.jdxblxb.2021389

摘要

针对图像中文描述中传统循环神经网络(RNN)结构不利于生成长句、缺乏细节语义信息的问题,提出一种用Transformer多头注意力(multi-head attention, MHA)网络,融合粗粒度的全局特征和细粒度的区域目标实体特征方法.该方法通过多尺度特征的融合,使图像注意力更易聚焦于细粒度的目标区域,得到更具细粒度语义特征的图像表示,从而有效改善了图像描述.在数据集ICC上使用多种评价指标进行验证,结果表明,该模型在各项指标上均取得了更好的图像描述效果.

全文