一种基于文本引导图模型的图像描述生成方法

胡珍珍; 王德鹏; 刘祥龙; 洪日昌; 汪萌

摘要

本发明公开了一种基于文本引导图模型的图像描述生成方法,属于图像描述生成技术领域,包括以下步骤：S10、建立引导文本候选集；S20、引导文本提取；S30、视觉特征提取：基于卷积神经网络的Faster R-CNN模型对给定图片产生L个目标检测区域；S40、建立图模型：用LSTM模型将引导文本转换为文本特征向量；将文本特征向量和图像视觉特征用非线性函数F融合生成图像区域表征,构建图模型；S50、基于图卷积网络和LSTM解码器将所述图模型转换为描述字幕。本发明引入了图像相关的文本,扩展了输入信息的多样性,不仅关注了图像中的物体,也注重了与图像相关的文本所构建的物体之间的关系,从生成的结果上可以直观的看出图模型生成的句子中物体之间的关系也更加丰富和准确。

单位
北京航空航天大学; 合肥工业大学

收藏分享被引浏览

更新时间：2024-07-18 03:31

一种基于文本引导图模型的图像描述生成方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友