基于Transformer的细粒度图像中文描述

肖雄; 徐伟峰<sup>*</sup>; 王洪涛; 苏攀; 高思华

doi:10.13413/j.cnki.jdxblxb.2021389

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

基于Transformer的细粒度图像中文描述

作者：肖雄; 徐伟峰^*; 王洪涛; 苏攀; 高思华

来源：吉林大学学报(理学版), 2022, 60(05): 1103-1112.

DOI：10.13413/j.cnki.jdxblxb.2021389

摘要

针对图像中文描述中传统循环神经网络(RNN)结构不利于生成长句、缺乏细节语义信息的问题，提出一种用Transformer多头注意力(multi-head attention, MHA)网络，融合粗粒度的全局特征和细粒度的区域目标实体特征方法.该方法通过多尺度特征的融合，使图像注意力更易聚焦于细粒度的目标区域，得到更具细粒度语义特征的图像表示，从而有效改善了图像描述.在数据集ICC上使用多种评价指标进行验证，结果表明，该模型在各项指标上均取得了更好的图像描述效果.

单位
中国民航大学; 华北电力大学（保定）

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 16:40

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号