摘要

为了解决视觉问答(Visual question&answer, VQA)中的语义分析问题,提出将不同种类的、联合训练的神经模块组成深度神经网络,并基于语义将视觉问题分解为多个子结构,通过这些子结构与模块化网络的结合实现高质量的陶瓷制品视觉问答应用。基于图像、注意力和标签确认陶瓷制品VOA任务中所需的模块集合,将VQA问题分解成不同的模块集,为了回答给定问题的模块集,将自然语言问题映射到分布层中,并使用这些分布层组成预测网络;为了解决具体的VQA颜色识别任务,将神经网络的输出和长短期记忆(Long short term memory, LSTM)问题编码器结合起来。通过语义分析器的输出,训练神经网络,并结合用户反馈机制,完成VQA的输出。该文在陶瓷制品VQA专用数据集上的试验验证了所提方法的有效性。与一些同类优秀方法相比,所提方法通过语义分解和多模块联合学习,能够处理自然图像相关的难感知问题,在视觉目标及其属性相关的VQA任务中表现出更好性能。

全文