一种新的场景文本识别模型

作者:王茂森; 蒋小森*; 牛少彰*
来源:北京理工大学学报, 2019, 39(03): 269-275.
DOI:10.15918/j.tbit1001-0645.2019.03.008

摘要

提出了基于残差网络和注意力机制的LRAM(LSTM with ResNet and attention model)模型,在模型中引入残差模块(ResNet),加快了网络的收敛速度,降低了网络训练难度;引入注意力机制(AM),实现了不同序列对当前文本识别的权重分配,提高文本识别的准确率.通过在Synth90K,Street View Text和ICDAR等数据集测试结果,与已存在的模型相比,LRAM性能超过现存其他网络模型.

全文