基于图神经网络和引导向量的图像字幕生成模型

佟国香; 李乐阳<sup>*</sup>

doi:10.16337/j.1004-9037.2023.01.018

摘要

近年来，深度学习已在图像字幕技术研究中展现其优势。在深度学习模型中，图像中对象之间的关系在图像表示中起着重要作用。为了更好地检测图像中的视觉关系，本文基于图神经网络和引导向量构建了图像字幕生成模型（YOLOv4-GCN-GRU, YGG）。该模型利用图像中被检测到的对象的空间和语义信息建立成图，利用图卷积神经网络（Graph convolutional network, GCN）作为编码器对图的每个区域进行表示。在字幕生成阶段，额外训练一个引导神经网络来产生引导向量，从而辅助生成模型自动生成语句。基于MSCOCO图像数据集的对比实验表明，YGG模型具有更好的性能，将CIDEr-D的性能从138.9%提高到了142.1%。

单位
上海理工大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 07:34

基于图神经网络和引导向量的图像字幕生成模型

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友