视觉问答任务中GQA数据集的可视化分析与研究

作者:郭晨靓; 王峰; 余正涛; 周彤; 孙崇翔; 赵佳*
来源:阜阳师范大学学报(自然科学版), 2023, 40(04): 61-68.
DOI:10.14096/j.cnki.cn34-1069/n/2096-9341(2023)04-0061-08

摘要

GQA(Grouped Query Attention,GQA)数据集是一个包含图像、问题和答案的大规模视觉问答数据集,其中问题涉及图像中的物体、场景和关系等各个方面。通过对GQA数据集以及一些基线模型进行深入的可视化分析,展示了该数据集中问题的多样性、图像内容的分布以及问题之间的关联性,揭示了其在视觉问答领域的优点。通过深入理解数据集的特点和结构,可以更好地利用其中的信息,从而推动视觉问答领域的发展。对于改进和优化现有模型、提出新的解决方案以应对数据集中的挑战具有重要意义。

  • 单位
    阜阳师范大学

全文