摘要

老挝语属于低资源语言,文本语料稀缺使得老挝语自然语言处理的基础任务难以开展,而老挝语的光学字符识别研究在一定程度上能解决语料匮乏的问题。该文提出一种融合老挝语词法、字符向量等文本特征的老挝语文字识别方法。首先,该方法以具有残差结构的卷积神经网络为主干,加入卷积注意力模块,以提取老挝文字图片的图片特征信息;其次,通过注意力机制动态分配权重组合图片特征信息与Glove预训练的词向量及字符向量;再有,用双向长短期记忆网络编码组合特征,以预测老挝文字序列标签的真实分布,同时,融入老挝音节组成规则,以预测音节规则标签分支优化老挝文字识别模型;最后,采用连接时序分类对标签分布进行序列对齐。实验结果表明,该方法取得了较好的老挝文字识别效果,准确率达到了88.63%。