摘要

本发明公开了一种场景文本感知的指代表达理解方法、装置及存储介质,其中方法包括:显式地提取图像中的场景文本实例,将其与指代表达句子计算相关性,其后计算场景文本实例在图像特征中的空间位置,以激活场景文本实例在图像特征中的相关区域,最终将场景文本感知的图像特征与句子文本特征进行精练、预测得到指代目标物体的位置坐标。本发明解决了当前指代表达理解技术无法显式对齐场景文本信息而导致目标物体定位错误的问题,能够提升机器人对于场景文本、视觉物体与视觉场景的认知能力,提升面向场景文本的人机交互能力。本发明可广泛应用于自然语言处理与计算机视觉技术领域。