摘要
本发明公开了一种基于注意力机制的场景文本识别方法及系统,包括获取场景文本图像数据集,并进行预处理;构建场景文本识别模型,并将预处理后的场景文本图像数据集输入场景文本识别模型进行模型训练;场景文本识别模型包括用于将场景文本图像矫正为规则的转换网络、用于将矫正后的场景文本图像提取为全局视觉特征的特征提取模块,以及多层注意力解码器;获取待检测的场景文本图像的测试集输入模型,得到识别的准确率作为模型的性能评价指标进行评估和检测结果。本发明通过构建改进的场景文本识别模型,并将全局注意力机制、自注意力机制引入其中,融合了多层叠加的注意力解码器,有效提高模型对全局视觉特征和全局序列特征的解码能力。
- 单位