基于多模态特征融合的图像描述算法研究

杨晨露; 万旺根; 张振; 孙学涛; 王旭智

摘要

针对图像描述任务，传统算法更加关注图像中的视觉物体，而忽略了文本信息对其描述也起到了不可或缺的作用。为增强对图像中文本信息的提取，提出了一种基于多模态特征融合的图像描述算法。在视觉特征提取的基础上，增加文本识别和检测算法，并使用多模态Transformer来融合两种模态。在解码阶段，采用中心图作为指导模块，使用动态指针网络实现迭代解码，使模型生成更加丰富的自然描述语句。最后在Textcaps数据集上的实验结果表明，该方法可以有效提高文本区域中OCR令牌的提取精度。

单位
通信与信息工程学院; 上海交通大学医学院附属仁济医院; 上海大学

收藏分享被引浏览

更新时间：2024-03-15 19:35

基于多模态特征融合的图像描述算法研究

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友