摘要
视觉对话是近年来热门且具挑战性的跨模态视觉语言任务。它需要机器人能够充分理解被问问题,并从历史对话和视觉内容所提供的上下文信息中适当推理,以自然语言形式就所看到的视觉内容进行有意义的多轮连续回答。目前主流模型有基于注意力机制的信息交互模型、基于图神经网络的图结构模型及基于大规模预训练的语言模型三大类,但都存在一定的局限性。该文针对语义信息融合粒度、算法学习灵活性等方面,提出了基于BERT模型的多层语义粒度视觉对话算法。算法以轻量级模型LTMI为基础,引入BERT预训练模型,实现了“词-句”多层次语义粒度的信息融合。同时,模型借鉴BERT的多任务训练过程,以自监督方式组织模型训练的文本序列微调数据集,实现跨模态特征学习。模型的跨模态嵌入过程可以随模型训练动态变化,从而提升了模型学习的灵活性。该文模型在视觉对话公开数据集VisDial v0.9和VisDial v1.0上分别与主流先进算法进行了比较。实验结果表明,该模型在保证对话回复预测精准性的基础上,进一步提升了算法的泛化能力,取得了较为优越的性能。
- 单位