摘要

本发明提供一种基于语义对齐的视觉问答方法和系统、存储介质,涉及视觉问答技术领域。本发明实施例首先通过获取并预处理数据集,根据原始图像提取原始图像特征和目标位置特征,根据目标位置特征产生图像描述语句,继而得到图像描述单词、问题特征和图像描述语句特征,将原始图像特征与图像描述单词进行语义对齐,得到第一图像特征,根据原始图像特征和图像描述语句特征,得到第二图像特征,根据原始图像特征和问题特征,得到第三图像特征,融合上述三个图像特征、图像描述语句特征和问题特征,得到综合特征,预测出最终的回答结果。进而突出图像信息的重要性,完善了特征融合过程涉及的信息,促使最终生成的回答结果更准确。