摘要
针对图像描述任务,传统算法更加关注图像中的视觉物体,而忽略了文本信息对其描述也起到了不可或缺的作用。为增强对图像中文本信息的提取,提出了一种基于多模态特征融合的图像描述算法。在视觉特征提取的基础上,增加文本识别和检测算法,并使用多模态Transformer来融合两种模态。在解码阶段,采用中心图作为指导模块,使用动态指针网络实现迭代解码,使模型生成更加丰富的自然描述语句。最后在Textcaps数据集上的实验结果表明,该方法可以有效提高文本区域中OCR令牌的提取精度。
-
单位通信与信息工程学院; 上海交通大学医学院附属仁济医院; 上海大学