基于交互式Transformer的图像-多语言字幕转换方法

作者:胡珍珍; 徐月圆; 周愿恩; 洪日昌; 汪萌
来源:2022-04-20, 中国, ZL202210418758.1.

摘要

本发明公开了一种基于交互式Transformer的图像-多语言字幕转换方法,其步骤包括:1.构建图像-多语言字幕数据集,2.获取图像的VinVL特征表示,3.获取文本的特征表示,4.采用图像特征与文本特征训练图像-多语言字幕模型,5.利用训练好的图像-多语言字幕模型,实现对图像的多种语言描述。本发明的文本信息涉及中英文两种语言,能够综合利用文本与视觉信息,实现图像到多语言字幕的转换,从而支持多种语言的高效转换。