摘要
逻辑推理是感知图形之间联系的能力,如何让计算机拥有类人的推理能力是一个重要的研究内容,在大量数据和深度模型的驱动下,现代人工智能在某些特定任务中能达到超人类水平的表现,但通过图像进行逻辑推理的能力还远远落后。针对逻辑推理领域的多尺度关系网络(MRNet)特征提取能力及泛化性不足的问题,提出了一种改进的逻辑推理方法-残差注意力多尺度关系网络(ResAMRNet)。利用残差结构重构主干网络,使用跳连与长跳连相结合,将浅层特征融合进深层网络训练中,减少特征信息丢失以提高模型的特征提取能力;在推理阶段,将通道注意力机制与残差模块相融合检测每行图片间的关系特征,差异化各特征通道重要程度,自适应学习注意力权重,提取关键特征;提出双池化高效通道注意力机制(DECA),结合全局最大池化进一步获取关于对象的特征信息,提高泛化性。在逻辑推理代表数据集RAVEN和I-RAVEN上进行实验,结果表明,ResAMRNet在RAVEN和I-RAVEN上的推理准确率分别为92.3%、97.4%,性能较MRNet分别提高8.3%和18.1%。
- 单位