无监督与有监督相结合的粤语分词方法

作者:苏振江; 张仰森*; 胡昌秀; 黄改娟
来源:计算机工程与设计, 2023, 44(08): 2482-2488.
DOI:10.16208/j.issn1000-7024.2023.08.032

摘要

为能在缺乏粤语分词语料的情况下进行粤语研究,提出一种基于无监督与有监督结合的粤语分词方法。利用多源语料完成粤语词库的构建;利用二元字典与粤语词库对初步结果进行初筛分词和二次分词;利用DAG对粤语通用句式切分错误进行分析并修正;将修正后的粤语分词语料利用深度学习模型固化分词效果,得到基于Bert-BiLSTM-CRF三层架构的分词模型。实验结果表明,该方法能有效克服预分词语料的缺失问题,在无需大量分词语料的情况下,F值达到74.3%。

全文