摘要

本发明公开了一种基于主要目标面向场景的文字字幕生成方法,涉及图像描述生成技术领域技术领域。对图像进行预处理得到包括关于M个物体中每个物体的物体区域框坐标、物体视觉特征、物体表征向量和关于N个文字中每个文字的文字区域框坐标、文字视觉特征、文字表征向量的样本数据;建立物体区域框坐标和文字区域框坐标之间的图关系;图卷积网络模型根据图关系对物体表征向量、文字表征向量进行增强得到增强特征;将增强特征发送到解码模型进行解码得到表述图片内容的句子。引入场景文字的主要目标概念,去除了场景图中冗余和干扰信息。关注图像中物体的同时也注重了图像的文本与物体之间的关系,生成的句子对场景文字的描述字幕更加准确。