摘要
本发明公开一种基于交叉注意力机制的自然场景文本识别方法,包括数据获取:下载自然场景下的样本图片,并对所述图片使用公开的代码合成训练集;数据处理:对所有训练样本图片的大小进行拉伸操作,处理后样本图片的大小为32*100,高宽比例与原图保持一致,不足的部分使用黑边填充;标签制作:采用有监督的方法来训练识别模型,所以每张行文本图片都有对应的文本信息;训练网络:把准备好的训练图片数据及标签输入到交叉注意力网络中训练,交叉注意力网络由垂直注意力网络和水平注意力网络组成;输入测试数据到已训练网络中,最后得到识别结果和预测每个字符的置信度。本发明识别准确率高、鲁棒性强、针对形状不规则文本有很好的识别性能。
- 单位