摘要
目前流行的词性标注方法严重依赖语料规模及人工提取特征的质量;然而,老挝语资源稀缺,语料及特征选取面临很大挑战,且老挝语句子本身存在普遍过长的特点。因此,该文提出一种融合细粒度词特征的老挝语词性标注方法,构建了融合细粒度词特征的Att-BiLSTM-CRF模型。首先,以老挝音素和声调符号作为基本单元来进行老挝细粒度词特征的提取,使模型获取更加丰富的语料信息;然后,将细粒度词特征输入BiLSTM中获取句子级别特征;其次,使用自注意力机制防止老挝句子长远上下文信息丢失;最后,使用CRF提取相邻词性约束关系,从而获取最优词性标签。实验结果表明,在有限语料集下,该方法精确率、召回率和F1值分别为93.70%、93.87%、93.62%。
-
单位昆明理工大学; 自动化学院