摘要
本发明公开了一种基于多模态信息的场景文字特征提取方法、装置及应用,该方法包括基于场景图像,获取场景图像中的文本模态数据和文本模态数据对应的图像模态数据,所述图像模态数据为场景图像中所述文本模态数据所在位置的区域图像;基于图像模态数据提取视觉特征,基于文本模态数据提取语义特征;基于所述语义特征和视觉特征进行融合,获取场景文字的融合特征。本发明针对场景文字分别基于图像模态和文本模态进行特征分析提取,充分挖掘场景文字深层信息,有效增强场景文字特征质量,从而模型能更好理解图像中的场景文字,提升场景图像处理模型任务效果。
- 单位