摘要

针对藏文字校对问题,提出一种不使用藏字字典的联合二层BiLSTM模型和CNN模型展开学习的藏字校对模型。模型通过研究藏文字构字语法、字母训练,得到藏文字母的向量表示,对字母向量进行BiGRU学习,所得的特征向量用三个卷积核进行CNN和全连接运算,最后用最小化交叉熵来优化模型查检藏文字的正确性。为了验证方法的实际表现,建立一共73155个藏文字实验语料,其中正样本占55.1%,负样本占44.9%。实验表明,该方法对藏文字对错识别率的F值达94.06%。