针对多模态模型中基于视觉区域特征提取方法表征能力有限的问题,文章提出了一种基于图像情景文本融合的多模态特征提取方法,并构建了图像情景文本融合的视觉语言多模态网络模型,简称OCR-ViLT,通过引入预训练加微调的迁移学习方案,降低模型训练成本。并经过大量实验探究模型的输入策略,文章建议,在跨模态检索任务中,采取图文比例2:3能够获得最优的召回率。