本发明公开了一种基于交互式Transformer的图像-多语言字幕转换方法,其步骤包括:1.构建图像-多语言字幕数据集,2.获取图像的VinVL特征表示,3.获取文本的特征表示,4.采用图像特征与文本特征训练图像-多语言字幕模型,5.利用训练好的图像-多语言字幕模型,实现对图像的多种语言描述。本发明的文本信息涉及中英文两种语言,能够综合利用文本与视觉信息,实现图像到多语言字幕的转换,从而支持多种语言的高效转换。