摘要
当前, 许多视觉问答模型存在偏见问题。具体来说, 当训练数据中的问题-答案呈现出较明显的映射关系时, 模型表现出较差的泛化能力。针对此类有偏预测, 已有的研究工作主要考虑了语言偏见, 而忽略了图片引入的偏差信息。为了增强视觉问答模型的鲁棒性, 提出一种偏见消减方法, 并在此基础上探究语言与视觉信息对偏见的影响。进一步地, 构造两个偏见学习分支分别捕获语言偏见与语言、图片共同导致的偏见, 利用偏见消减方法得到更鲁棒的预测结果。最后, 依据标准视觉问答与偏见分支之间的预测概率差异, 对样本进行动态赋权, 从而使模型针对不同偏见程度的样本动态调节学习程度。在VQA-CP v2.0等数据集上的实验证明了所提方法的有效性, 缓解了偏见对模型的影响。
- 单位