摘要
本发明公开了一种基于文本引导图模型的图像描述生成方法,属于图像描述生成技术领域,包括以下步骤:S10、建立引导文本候选集;S20、引导文本提取;S30、视觉特征提取:基于卷积神经网络的Faster R-CNN模型对给定图片产生L个目标检测区域;S40、建立图模型:用LSTM模型将引导文本转换为文本特征向量;将文本特征向量和图像视觉特征用非线性函数F融合生成图像区域表征,构建图模型;S50、基于图卷积网络和LSTM解码器将所述图模型转换为描述字幕。本发明引入了图像相关的文本,扩展了输入信息的多样性,不仅关注了图像中的物体,也注重了与图像相关的文本所构建的物体之间的关系,从生成的结果上可以直观的看出图模型生成的句子中物体之间的关系也更加丰富和准确。
- 单位