一种基于主要目标面向场景的文字字幕生成方法

胡珍珍; 唐文亮; 宋子杰; 洪日昌

摘要

本发明公开了一种基于主要目标面向场景的文字字幕生成方法,涉及图像描述生成技术领域技术领域。对图像进行预处理得到包括关于M个物体中每个物体的物体区域框坐标、物体视觉特征、物体表征向量和关于N个文字中每个文字的文字区域框坐标、文字视觉特征、文字表征向量的样本数据；建立物体区域框坐标和文字区域框坐标之间的图关系；图卷积网络模型根据图关系对物体表征向量、文字表征向量进行增强得到增强特征；将增强特征发送到解码模型进行解码得到表述图片内容的句子。引入场景文字的主要目标概念,去除了场景图中冗余和干扰信息。关注图像中物体的同时也注重了图像的文本与物体之间的关系,生成的句子对场景文字的描述字幕更加准确。

单位
合肥工业大学

收藏分享被引浏览

更新时间：2024-12-27 20:38

一种基于主要目标面向场景的文字字幕生成方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友