视觉问答中的模型分析与展望

作者:王雪枫; 张雪松; 王峰; 石方宇; 赵佳*
来源:阜阳师范大学学报(自然科学版), 2022, 39(02): 76-84.
DOI:10.14096/j.cnki.cn34-1069/n/2096-9341(2022)02-0076-09

摘要

随着深度学习在图像处理和自然语言处理等领域的迅速发展,基于图像处理和自然语言处理的视觉问答任务也受到了越来越多的关注。通过对近年来视觉问答相关的大量模型进行分析,将视觉问答模型划分为模态融合模型,注意力机制模型,模块化模型,基于外部知识的模型,处理语言先验的模型及关系推理的模型等。总结分析了视觉问答技术最新进展及现有方法的局限性,对视觉问答技术的未来发展方向进行展望并给出了一些可行的建议。

  • 单位
    阜阳师范大学