基于子问题渐进式推理的3D视觉问答

作者:李长健; 杨昱威; 肖枭; 雷印杰*
来源:计算机应用研究, 2023, 40(04): 987-995.
DOI:10.19734/j.issn.1001-3695.2022.08.0432

摘要

3D视觉问答可以帮助人们理解空间信息,在幼儿教育等方面具有广阔的应用前景。3D场景信息复杂,现有方法大多直接进行回答,面对复杂问题时容易忽视上下文细节,从而导致性能下降。针对该问题,提出了一种基于子问题渐进式推理的3D视觉问答方法,通过文本分析为复杂的原始问题构建多个简单的子问题。模型在回答子问题的过程中学习上下文信息,帮助理解复杂问题的含义,最终利用积累的联合信息得出原始问题的答案。子问题与原始问题呈现渐近式推理关系,使得模型具有明确的错误解释性和可追溯性。在现有3D数据集ScanQA上进行的实验表明,所提方法在EM@10和CIDEr两个指标上分别达到了51.49%和61.68%,均超过了现有的其他3D视觉问答方法,证实了该方法的有效性。

全文