摘要
本发明属于计算机视觉与自然语言处理技术领域,公开了一种基于视觉显著性与语义属性跨模态图像自然语言描述方法,采用卷积神经网络提取图像各区域的多尺度深度视觉特征;利用预训练的显著性模型,回归出图像显著性图对原图像进行加权;建立预定义字典作为语义属性类别,并对视觉显著性图像进行语义属性检测;采用多示例学习计算语义属性;利用语义属性对图像特征加权;采用长短期记忆网络对基于视觉显著性的语义属性特征进行解码,生成图像描述。本发明具有准确度高的优点。可用于复杂场景下的图像检索及多目标图像语义理解等。
- 单位